CN110569846A

CN110569846A - 图像文字识别方法、装置、设备及存储介质

Info

Publication number: CN110569846A
Application number: CN201910870990.7A
Authority: CN
Inventors: 黄相凯; 王乐义; 聂磊; 安思宇; 刘明浩; 郭江亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2019-12-13
Also published as: US20210081729A1; US11681875B2

Abstract

本申请公开了一种图像文字识别方法、装置、设备及存储介质，涉及云计算领域中的图像处理技术。具体实现方案为：获取待处理图像，该待处理图像中存在至少一个文本行，对待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，该合成编码向量携带语义信息和位置信息，根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定待处理图像中的文字识别结果。该技术方案中，不仅利用了文本的语义特征，而且还融合了文字在图像上的位置信息，能够准确区分图像中像素间距很小的相邻字段，提高了图像中文字识别的准确度。

Description

图像文字识别方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理技术中的图像文字识别方法、装置、设备及存储介质。

背景技术

光学字符识别(optical character recognition，OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。在实际应用过程中，对图像识别之后，通常还需要在文本语义层面对图像表征层的连续文本做分割，以区分不同的字段在语义上的差异。

然而，现有OCR方法的文字检测过程完全依赖与图像的语义信息，无法区分图像中像素间距很小的相邻字段，存在识别的准确度低。

发明内容

本申请实施例提供一种图像文字识别方法、装置、设备及存储介质，用于解决现有OCR方法无法区分图像中像素间距很小的相邻字段而存在的识别准确度低的问题。

第一方面，本申请提供一种图像文字识别方法，包括：

获取待处理图像，所述待处理图像中存在至少一个文本行；

对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，所述合成编码向量携带语义信息和位置信息；

根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定所述待处理图像中的文字识别结果。

在本实施例中，在进行图像文字识别时，不仅利用了文本的语义特征，而且还融合了文字在图像上的位置信息，能够准确区分图像中像素间距很小的相邻字段，提高了图像中文字识别的准确度。

在第一方面的一种可能设计中，所述对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，包括：

对所述待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量；

确定所述待处理图像中每个文本行中各单字的坐标信息；

对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，所述位置编码向量与所述语义编码向量的维度相同；

将每个单字的语义编码向量和位置编码向量进行融合，得到每个单字的合成编码向量。

在本实施例中，每个单字的合成编码向量是由每个单字的语义编码向量和位置编码向量融合得到的，其携带有准确的语义信息和位置信息，因而，能够准确划分某类型的区域(例如表格区域)中不同字段间可能无明显语义差异(比如连续的多个数字列)，但是属于不同字段的单字，提高了后续图像文字识别的准确率。

可选的，所述对所述待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量，包括：

对于所述待处理图像中的各单字，加权融合所述单字所属文本行中所有单字的语义信息，得到所述单字的语义编码向量。

在本实施例中，通过加权融合的方式得到每个单字的语义编码向量，提高了语义编码向量的准确率。

可选的，所述对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，包括：

确定所述待处理图像中表征各单字的多个像素点；

根据各个单字对应的多个像素点的坐标信息，确定每个单字的位置向量；

根据各个单字对应语义编码向量的维度，对各个单字的位置向量进行维度变换，得到维度与语义编码向量具有相同维度的位置编码向量。

在本实施例中，利用各单字的多个像素点确定每个单字的位置向量，在将其变换成与语义编码向量具有相同维度的位置编码向量，为后续的向量融合提供了实现可能。

在第一方面的另一种可能设计中，所述根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定所述待处理图像中的文字识别结果，包括：

将每个文本行中各单字对应的合成编码向量输入到预设信息分析网络中，确定各单字的上下文信息，所述预设信息分析网络用于分析各单字的上下文信息；

根据各单字的上下文信息，确定出各单字所属的类别标签；

将每个文本行中各单字的上下文信息以及各单字所属的类别标签输入到判别式模型中，得到所述待处理图像中的文字识别结果。

在本实施例中，通过确定出各单字的上下文信息以及所属类别，再利用判别式模型进行类别标签分类，可以有效的对文本行中的字段进行切分，为后续得到准确的文字识别结果奠定了基础。

在第一方面的再一种可能设计中，在所述对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量之前，所述方法还包括：

对所述待处理图像进行光学字符识别，确定所述待处理图像中的文本行和每个文本行中各单字的位置信息。

在第一方面的又一种可能设计中，所述方法还包括：

根据所述待处理图像中的文字识别结果，确定每个文本行中每个字段的范围，每个字段包括上下文语义信息相互关联的多个单字；

根据每个文本行中同一个字段中所有单字的上下文语义信息，确定所述待处理图像中文本的实际含义。

在本实施例中，根据每个字段的范围对每个文本行进行切分，从而实现准确的断句，以确定出待处理图像中文本的实际含义，其为后续的OCR文本结构化工作带来了极大的便利。

第二方面，本申请提供一种图像文字识别装置，包括：获取模块、处理模块和确定模块；

所述获取模块，用于获取待处理图像，所述待处理图像中存在至少一个文本行；

所述处理模块，用于对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，所述合成编码向量携带语义信息和位置信息；

所述确定模块，用于根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定所述待处理图像中的文字识别结果。

在第二方面的一种可能设计中，所述处理模块，具体用于对所述待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量，确定所述待处理图像中每个文本行中各单字的坐标信息，对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，所述位置编码向量与所述语义编码向量的维度相同，以及将每个单字的语义编码向量和位置编码向量进行融合，得到每个单字的合成编码向量。

可选的，所述处理模块，用于对所述待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量，具体为：

所述处理模块，具体用于对于所述待处理图像中的各单字，加权融合所述单字所属文本行中所有单字的语义信息，得到所述单字的语义编码向量。

可选的，所述处理模块，用于对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，具体为：

所述处理模块，具体用于确定所述待处理图像中表征各单字的多个像素点，根据各个单字对应的多个像素点的坐标信息，确定每个单字的位置向量，根据各个单字对应语义编码向量的维度，对各个单字的位置向量进行维度变换，得到维度与语义编码向量具有相同维度的位置编码向量。

在第二方面的另一种可能设计中，所述确定模块，具体用于将每个文本行中各单字对应的合成编码向量输入到预设信息分析网络中，确定各单字的上下文信息，所述预设信息分析网络用于分析各单字的上下文信息，根据各单字的上下文信息，确定出各单字所属的类别标签，将每个文本行中各单字的上下文信息以及各单字所属的类别标签输入到判别式模型中，得到所述待处理图像中的文字识别结果。

在第二方面的再一种可能设计中，所述处理模块，还用于在对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量之前，对所述待处理图像进行光学字符识别，确定所述待处理图像中的文本行和每个文本行中各单字的位置信息。

在第二方面的又一种可能设计中，所述确定模块，还用于根据所述待处理图像中的文字识别结果，确定每个文本行中每个字段的范围，每个字段包括上下文语义信息相互关联的多个单字，根据每个文本行中同一个字段中所有单字的上下文语义信息，确定所述待处理图像中文本的实际含义。

本申请第二方面提供的装置，可用于执行第一方面提供的方法，其实现原理和技术效果类似，在此不再赘述。

第三方面，本申请提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面以及第一方面各可能设计所述的方法。

第四方面，本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面以及第一方面各可能设计所述的方法。

第五方面，本申请提供一种图像文字识别方法，包括：

确定待处理图像的至少一个文本行中每个单字的合成编码向量，所述合成编码向量携带语义信息和位置信息；

对每个文本行中各单字对应合成编码向量进行处理，得到所述待处理图像中的文字识别结果。

上述申请中的一个实施例具有如下优点或有益效果：通过获取存在至少一个文本行的待处理图像，对待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，该合成编码向量携带语义信息和位置信息，根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定待处理图像中的文字识别结果。该技术方案中，不仅利用了文本的语义特征，而且还融合了文字在图像上的位置信息，能够准确区分图像中像素间距很小的相邻字段，提高了图像中文字识别的准确度。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例提供的图像文字识别方法的流程示意图；

图2是根据本申请第二实施例提供的图像文字识别方法的流程示意图；

图3为对待处理图像进行处理得到每个单字的合成编码向量的示意图；

图4是根据本申请第三实施例提供的图像文字识别方法的流程示意图；

图5为一个文本行中单字的处理示意图；

图6是根据本申请第四实施例提供的图像文字识别方法的流程示意图；

图7为某医院的病人费用清单示意图；

图8为图7所示病人费用清单中的文本检测结果示意图；

图9为本申请实施例中电子设备进行图像文字识别的框图；

图10为图7所示的病人费用清单的识别结果示意图；

图11为本申请实施例提供的图像文字识别装置的结构示意图；

图12是用来实现本申请实施例的图像文字识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

光学字符识别(optical character recognition，OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。也即，将图像中的文字进行识别，并以文本的形式返回。典型的OCR技术方案可分为两部分：文字检测和文字识别。文字检测即检测图像中文本的所在位置、范围及其布局，通常也包括版面分析和文字行检测等。文字检测主要确定图像的哪些位置有文字，文字的范围有多大。文本识别是在文本检测的基础上，对文本内容进行识别，将图像中的文本信息转化为文本信息。文字识别主要确定出文字检测出的每个文字是什么。

对于文字检测任务，目前主要是套用图像检测的方法来框选出图像中的文本区域。常用的如Faster R-CNN算法，它采用辅助生成样本的区域候选网络(region proposalnetworks，RPN)将算法结构分为两个部分，先利用RPN判断候选框是否为目标框，再经分类定位的多任务损失函数判断目标框的类型，整个网络流程能够共享卷积神经网络提取到的特征信息，节约了计算成本，且解决了Fast R-CNN算法生成正负样本的候选框速度慢的问题，同时避免了候选框提取过多导致算法准确率下降。对于受限场景的文字检测，FasterR-CNN算法的表现较为出色，可以通过多次检测确定不同粒度的文本区域。

然而，上述方法虽然能够在一定程度上解决OCR中文字检测的问题，但由于检测方法完全依赖于图像的语义特征信息，因此仅能区分在图像特征方面有明显差异的文本行。但是，在实际应用过程中，对图像识别之后，通常还需要在文本语义层面对图像表征层的连续文本做分割，以区分不同的字段在语义上的差异。针对该问题，相关技术中主要是根据文本表述的特点，靠人工提炼规则的方式对字段做切分。由于人工提炼规则的制定过程繁琐复杂，耗时长且灵活性差，而且不同策略之间可能存在相互影响的问题。

综上可知，现有技术中OCR方法的文字检测过程完全依赖与图像的语义信息，无法区分图像中像素间距很小的相邻字段，存在识别的准确度低，因而，本申请实施例提供了一种图像文字识别方法，通过获取待处理图像，该待处理图像中存在至少一个文本行，对待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，该合成编码向量携带语义信息和位置信息，根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定待处理图像中的文字识别结果。该技术方案中，不仅利用了文本的语义特征，而且还融合了文字在图像上的位置信息，能够准确区分图像中像素间距很小的相邻字段，提高了图像中文字识别的准确度。

可以理解的是，本申请实施例的执行主体可以是电子设备，例如，计算机、平板电脑等终端设备，也可以是服务器，例如，后台的处理平台等。因而，本实施例以终端设备和服务器统称为电子设备进行解释说明，关于该电子设备具体为终端设备，还是服务器，其可以实际情况确定。

下面，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图1是根据本申请第一实施例提供的图像文字识别方法的流程示意图。如图1所示，该方法可以包括如下步骤：

S101、获取待处理图像，该待处理图像中存在至少一个文本行。

在实际应用中，图像文字识别在虚拟现实、人机交互、票据识别、工业自动化等领域都有广泛的应用。例如，通过对票据进行识别，可以确定出票据中的信息，帮助相关人员通过电子化的方式对票据进行归集和处理。

在本实施例中，当电子设备需要执行图像文字识别操作时，首先获取图像中存在文字的待处理图像。待处理图像可以是预置在电子设备中的带有文字的图像，也可以是独立于电子设备的待处理图像。本申请实施例不对获取待处理图像的方式进行限定，其可以根据实际需求确定。

可以理解的是，待处理图像中需要存在至少一个文本行，以使得电子设备利用本实施例的图像文字识别方法可以准确识别出每个文本行中的每个字段，从而确定出图像中的文字的实际含义。

S102、对待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量。

其中，该合成编码向量携带语义信息和位置信息。

示例性的，在本实施例中，电子设备中可以设置自注意力及位置编码层(self-attention&positional embedding layer)。具体的，利用自注意力及位置编码层的自注意力机制对待处理图像中的每个文本行进行处理，通过编码各单字的上下文语义信息确定出每个单字的语义信息，利用自注意力及位置编码层的位置编码机制对每个文本行中各单字的位置信息进行编码，确定出每个单字的位置信息，最后将每个单字的语义信息和位置信息进行融合，从而得到每个文本行中各单字对应的合成编码向量。

关于本步骤的实现原理可参见下述图2所示实施例中的记载，此处不再赘述。

可以理解的是，在本申请的实施例中，在该步骤之前，该方法还可以包括如下步骤：

对待处理图像进行光学字符识别，确定待处理图像中的文本行和每个文本行中各单字的位置信息。

在实际应用中，在获取到待处理图像后，通常需要先判定待处理图像中是否存在文字以及待处理图像中存在文字时各文字所在的位置。在本实施例中，可以通过光学字符识别ORC的方法对待处理图像进行文本检测和文字识别。

具体的，首先对待处理图像进行扫描，确定待处理图像中存在文本行以及文本行的所在位置、范围以及布局，然后对每个文本行进行文字检测确定出每个单字的具体含义。

S103、根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定该待处理图像中的文字识别结果。

在本实施例中，由于文本行中的各单字对应的合成编码向量融合了语义信息和位置信息，因而，待处理图像中每个位置输出的合成编码向量同时表征了语义信息和位置信息。当将该合成编码向量输入到判别式模型中作实体序列标签分类时，可以得到准确的序列标签分类结果，再根据得到的序列标签***结果对同一实体字段的所有字的坐标范围进行聚合，从而可以确定出待处理图像中的文字识别结果。

关于本步骤的实现原理可参见下述图4所示实施例中的记载，此处不再赘述。

本申请实施例提供的图像文字识别方法，通过获取存在至少一个文本行的待处理图像，对待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，该合成编码向量携带语义信息和位置信息，根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定待处理图像中的文字识别结果。该技术方案中，不仅利用了文本的语义特征，而且还融合了文字在图像上的位置信息，能够准确区分图像中像素间距很小的相邻字段，提高了图像中文字识别的准确度。

示例性的，在上述实施例的基础上，图2是根据本申请第二实施例提供的图像文字识别方法的流程示意图。如图2所示，在本实施例中，上述S102可以通过如下步骤实现：

S201、对待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量。

在本实施例中，对于待处理图像中的每个文本行，首先对其中的每个单字分别进行语义增强，得到增强的语义向量，然后，将每个单字作为对象，例如，数据库中的Query，通过加权融合该单字所在文本行中的所有字的语义信息，得到每个单字对应的语义编码向量。

示例性的，对于每个单字，经过加权融合后得到的语义编码向量可以均通过一个768维的向量表示。

因而，在本实施例中，该步骤可以总结为通过如下步骤实现：对于待处理图像中的各单字，加权融合该单字所属文本行中所有单字的语义信息，得到该单字的语义编码向量。

S202、确定待处理图像中每个文本行中各单字的坐标信息。

在本实施例中，待处理图像经过光学字符识别之后，可以获得每个文本行中每个单字在待处理图像中的位置坐标，从而，可以确定出待处理图像中每个文本行中各单字的坐标信息。

S203、对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量。

其中，该位置编码向量与上述语义编码向量的维度相同。

在本实施例中，当获得每个单字在待处理图像中的坐标信息后，可以确定出表征该单字的多个像素点，利用该多个像素点的坐标信息组成一个位置向量来表征该单字。

示例性的，利用每个单字的左上角点、中心点和右下角点作为该单字的像素点，因而，利用每个单字的左上角点的坐标、中心点的坐标和右下角点的坐标可以一个6维的向量，得到该单字的位置向量。

进一步的，本实施例中，可以对每个单字的位置向量进行维度变换，以得到与上述语义编码向量的具有相同维度的位置编码向量。示例性的，利用一个全连接层将该单字的位置向量映射为一个768维的向量，使得其与上述语义编码向量的维度相同，以实现可以将该位置编码向量和语义编码向量进行相加操作，得到每个单字的合成编码向量。

因而，在本申请的实施例中，该S203可以通过如下步骤实现：

A1：确定待处理图像中表征各单字的多个像素点。

可选的，在待处理图像中，每个单字会占据一定的空间，也即，每个单字是由多个像素点组成的。在本实施例中，为了准确的表征该单字的位置信息，可以利用组成该单字的多个像素点的坐标信息来表征。具体的，由于每个单字的中心点、左上角点、右下角点、右上角点、左下角点等均是单字的关键像素点，因而，可以从上述中心点、左上角点、右下角点、右上角点、左下角点中进行选择。

A2：根据各个单字对应的多个像素点的坐标信息，确定每个单字的位置向量。

示例性的，为了简化处理复杂度，且准确表征单字的位置，在本实施例中，可以利用每个单字的中心点、左上角点、右下角点作为关键像素点。这样利用每个单字的中心点的坐标、左上角点的坐标、右下角点的坐标可以分别求出三个像素点中每两个点的相对距离，从而利于三组相对距离组成一个6维的位置向量，该6维的位置向量即是单字的位置向量。

A3：根据各个单字对应语义编码向量的维度，对各个单字的位置向量进行维度变换，得到维度与语义编码向量具有相同维度的位置编码向量。

在本实施例中，由于文本行中每个单字经过语义分析后得到的语义编码向量是一个高维的向量，因而，为了将单字的语义信息和位置信息进行融合，本实施例中，需要根据各个单字对应语义编码向量的维度，对各个单字的位置向量进行维度变换，以将各单字的位置向量变换成与语义编码向量具有相同维度的位置编码向量。

S204、将每个单字的语义编码向量和位置编码向量进行融合，得到每个单字的合成编码向量。

在本实施例中，当得到各单字对应的语义编码向量和位置编码向量之后，由于每个单字的位置编码向量与语义编码向量具有相同的维度，所以，通过相同位置叠加的原理，将每个单字的语义编码向量和位置编码向量进行融合，将融合后的向量作为每个单字的合成编码向量。

在本实施例中，由于每个单字的语义编码向量是通过加权融合该单字所属文本行中所有单字的语义信息得到的，每个单字的位置编码向量是通过对该单字的坐标信息进行编码和纬度变换得到的，所以，每个单字的合成编码向量均携带有准确的语义信息和位置信息。

示例性的，图3为对待处理图像进行处理得到每个单字的合成编码向量的示意图。如图3所示，在本实施例中，首先对待处理图像进行光学字符识别，确定出待处理图像中的至少一个文本行，其次对每个文本行中的每个单字进行语义分析，得到每个单字对应的语义编码向量，以及基于每个单字的坐标信息得到每个单字的位置编码向量，最后对每个单字的语义编码向量和位置编码向量进行融合，得到每个单字的合成编码向量。

本申请实施例提供的图像文字识别方法，通过对待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量，其次确定待处理图像中每个文本行中各单字的坐标信息，对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，该位置编码向量与语义编码向量的维度相同，最后将每个单字的语义编码向量和位置编码向量进行融合，得到每个单字的合成编码向量。该技术方案中，每个单字的合成编码向量是由每个单字的语义编码向量和位置编码向量融合得到的，其携带有准确的语义信息和位置信息，因而，能够准确划分某类型的区域(例如表格区域)中不同字段间可能无明显语义差异(比如连续的多个数字列)，但是属于不同字段的单字，提高了后续图像文字识别的准确率。

示例性的，在上述实施例的基础上，图4是根据本申请第三实施例提供的图像文字识别方法的流程示意图。如图4所示，在本实施例中，上述S103可以通过如下步骤实现：

S401、将每个文本行中各单字对应的合成编码向量输入到预设信息分析网络中，确定各单字的上下文信息。

其中，该预设信息分析网络用于分析各单字的上下文信息。

示例性的，该预设信息分析网络可以通过双向长短期记忆(Long Short-TermMemory，Bi-LSTM)网络实现。Bi-LSTM网络包括前向LSTM网络和后向LSTM网络。前向LSTM网络用于分析当前单字的上文信息，后向LSTM网络用于分析当前单字的下文信息。

具体的，在本实施例中，通过前向LSTM和后向LSTM分别编码当前单字的上文信息和下文信息，通过对前向LSTM和后向LSTM输出结果做拼接，从而可以确定各单字的上下文信息。

具体来说，对于单字x_i(i为正整数)，单字x_i之前的(i-1)个单字的语义识别结果作为单字x_i的上文信息，单字x_i之后单字的语义识别结果作为单字x_i的下文信息。可选的，单字x_i通过前向LSTM对单字x_i的上文信息进行编码，得到单字x_i的上文输出结果记为同样，单字x_i通过后向LSTM，对单字x_i的下文信息进行编码，得到单字x_i的下文输出结果将单字x_i的上文输出结果和下文输出结果以向量级别进行拼接，得到单字x_i的双向LSTM输出结果p_i，该输出结果p_i的维度为上文输出结果和下文输出结果为2倍。

示例性的，图5为一个文本行中单字的处理示意图。如图5所示，本实施例中，以通过光学字符识别检测得到的“中国很大”作为待处理的文本行，该文本行中的单字及其位置参照图5所示。具体的，“中”对应的合成编码向量为x₁，“国”对应的合成编码向量为x₂，“很”对应的合成编码向量为x₃，“大”对应的合成编码向量为x₄。将合成编码向量为x₁输入到双向LSTM中，前向LSTM的输出结果为后向LSTM的输出结果为将输出结果和输出结果为进行叠加得到双向LSTM的输出结果为p₁。也即，单字“中”的上下文信息对应的向量为p₁。

同理，单字“国”的上下文信息对应的向量为p₂、|“很”的上下文信息对应的向量为p₃、“大”的上下文信息对应的向量为p₄，本实施例中对其他单字的处理过程类似，此处不再赘述。

S402、根据各单字的上下文信息，确定出各单字所属的类别标签。

在本实施例中，可以将各单字的上下文信息对应的向量通过一层线性变换得到该单字归属于每一个类别标签的分数，也即，通过线性变换层，可以将每个单字的双向LSTM输出结果变换成维度和类别标签数量一致的向量，从而确定出各单字所属的类别标签。

S403、将每个文本行中各单字的上下文信息以及各单字所属的类别标签输入到判别式模型中，得到待处理图像中的文字识别结果。

可选的，该判别式模型为条件随机场层(conditional random fields，CRF)。在本实施例中，根据双向LSTM输出的各单字的上下文信息、各单字所属的类别标签，并结合条件随机场的转移分数矩阵，可以求得一条最优的实体标签序列。

在本实施例中，CRF的主要作用是学习状态转移分数矩阵，可以加入一些约束来保证最终预测结果是有效的，比如:句子的开头应该是“B-”或“O”，而不是“I-”或“E-”；“O I-label”是错误的，命名实体的开头应该是“B-”而不是“I-”等。

可以理解的是，本申请实施例可以针对表格区域执行文本结构化任务，通过通用OCR检测和识别得到的至少一个文本行中的文字及坐标信息。

针对处于同一行的文本，本实施例对其做二次处理，以将像素距离很小的多个字段做切分，采用深度学习方法，将字段切分任务转化为自然语言处理中常见的命名实体识别任务，将每一列的字段都看成是一种实体，以“B-实体名”(即代表该字为某个实体的开始字)、“I-实体名”(即代表该字某个实体的中间字)、“E-实体名”(即代表该字某个实体的结束字)、“S-实体名”(即代表该字为某个单子实体)、“O”(即代表该字不构成实体)的方式，对同一行表格文本做序列标签的预测输出。根据序列标签预测结果，可以得知同属于同一实体的文字范围，通过将同一实体的单字坐标做聚合，可以重新生成该字段所对应的文本检测框。

示例性的，参照图5所示，上述文本行“中国很大”对应的文字识别结果中，“中”对应的是“B-LOC”，“国”对应的是“I-LOC”，“很”和“大”对应的均是“O”。

本申请实施例提供的图像文字识别方法，通过将每个文本行中各单字对应的合成编码向量输入到预设信息分析网络中，确定各单字的上下文信息，根据各单字的上下文信息，确定出各单字所属的类别标签，将每个文本行中各单字的上下文信息以及各单字所属的类别标签输入到判别式模型中，得到该待处理图像中的文字识别结果。该技术方案中，通过确定出各单字的上下文信息以及所属类别，再利用判别式模型进行类别标签分类，可以有效的对文本行中的字段进行切分，为后续得到准确的文字识别结果奠定了基础。

进一步的，在本申请的实施例中，图6是根据本申请第四实施例提供的图像文字识别方法的流程示意图。如图6所示，该方法还可以包括如下步骤：

S601、根据待处理图像中的文字识别结果，确定每个文本行中每个字段的范围，每个字段包括上下文语义信息相互关联的多个单字。

示例性的，该步骤可以在上述S103之后执行，也即，根据得到的待处理图像中的文字识别结果，对每个文本行中的字段进行划分。示例性的，可以基于每个单字携带的类别实体标签确定出每个字段的范围，这样每个字段包括的多个单字的上下文语义信息相关联。

S602、根据每个文本行中同一个字段中所有单字的上下文语义信息，确定待处理图像中文本的实际含义。

在本实施例中，可以根据每个字段的范围对每个文本行进行切分，从而实现准确的断句，以确定出待处理图像中文本的实际含义，其为后续的OCR文本结构化工作带来了极大的便利。

本申请实施例的图像文字识别方法，根据待处理图像中的文字识别结果，确定每个文本行中每个字段的范围，每个字段包括上下文语义信息相互关联的多个单字，根据每个文本行中同一个字段中所有单字的上下文语义信息，确定待处理图像中文本的实际含义，其可以辅助执行后续图像中文本的结构化任务。

综上所述，本申请实施例在得到OCR检测和识别结果之后，进行第二次的加工，对文本行的每个字进行编码，使得每个字充分融合上下文语义信息，并通过对每个字的检测框位置信息进行位置编码，并与语义信息进行融合，使得每个位置的输出向量同时表征了语义信息和位置信息。在上层连接双向LSTM网络以编码上下文信息，通过连接CRF做序列标签输出，根据实体类型的序列标签结果可得到每个实体字段的范围，最终根据同一实体字段的所有字的坐标范围重新聚合，生成新的检测框，完成基于文本语义及位置编码的字段切分任务。

下面，本申请实施例针对医院开具的明细清单做表格区域的文本结构化任务进行举例说明。由于真实场景中图像的表格区域经常出现多列间距很小的问题，但由于文字检测过程完全依赖图像的语义信息，因此无法区分文本语义上有差异而在图像位置上无明显特征的连续文本，从而导致OCR检测阶段难以区分像素间距很小的多个字段，本申请实施例的方法，能够根据文本语义及文字在图像上的位置将OCR结果作分割，为后续的OCR文本结构化工作带来了极大的便利。

示例性的，图7为某医院的病人费用清单示意图。如图7所示，对于虚粗线框选的区域，由于相邻列之间距离较近，图像上没有明显的特征可以将不同的字段加以区分，因此，示例性的，现有OCR通常会将“16层未知”和“块”两个字段检测成了一个字段，将“2.1100”和“4”两个字段检测成了一个字段。本实施例主要是针对OCR检测识别结果做二次处理，从而达到区分不同字段的效果。

本实施例中，利用OCR方法可以识别出该病人费用清单示意图中的文本行，以及该文本行中每个单字在原图中的坐标位置及每个字段的识别结果。示例性的，图8为图7所示病人费用清单中的文本检测结果示意图。如图8所示，以“敷料(抽丝纱布)16层未知块2.1100 4 8.4400 8.4400”这一文本行进行举例说明。

示例性的，图9为本申请实施例中电子设备进行图像文字识别的框图。如图9所示，在本实施例中，该电子设备包括：语义信息编码模块、字符相对位置编码模块、信息融合模块、双向LSTM模块以及CRF模块。在本实施例中，电子设备的输入为该文本行中的每个单字及单字在原图中的坐标位置。关于文本行中每个单字的坐标位置如下所示：

在本实施例中，语义信息编码模块从输入中提取“word”即每个单字，并通过自注意模型对上下文语义进行学习，最终输出每个单字对应的语义编码向量。

字符相对位置编码模块从输入中提取“rect”即每个单字的坐标信息，通过字符相对位置计算模块计算相邻单字左上角点、中心点及右下角点的字坐标相对距离。以“料”字的左上角点字坐标相对距离求解举例，left相对距离即“料”的left减去“敷”的left：493-461＝32，同理，top相对距离即1242-1242＝0，类似的，可得到中心点及右下角点的相对距离。将三个距离进行拼接，可以得到一个6维的向量。在本实施例中，为了保证相对位置编码信息能够与语义信息编码模块编码的文本语义信息进行融合，通过一个全联接层将6维向量映射成与语义编码向量相同的维度。

信息融合模块，也即，语义信息及相对位置融合模块，利用语义信息编码模块得到的每个单字的语义编码向量和字符相对位置编码模块得到的位置编码向量，将两个向量进行按位相加的方式进行信息融合，得到合成编码向量。

双向LSTM模块对输入的合成编码向量进行充分学习并确定出每个单字的上下文信息和所属的类别标签，并将其输入到CRF模块，进而得到每个单字对应的输出结果。

示例性的，图10为图7所示的病人费用清单的识别结果示意图。如图10所示，对于“敷料(抽丝纱布)16层未知块2.1100 4 8.4400”为例，得到的输出序列即为“B-Na I-Na I-Na I-Na I-Na I-Na I-Na E-Na B-Spec I-Spec I-Spec I-Spec E-Spec S-Un B-Num I-Num I-Num I-Num I-Num E-Num S-Num B-Num I-Num I-Num I-Num I-Num E-Num”，其中，Na表示名称实体，Spec表示规格实体，Un表示单位实体，Num表示数字实体，B表示实体开始，I表示实体中间，E表示实体结尾，S表示单字实体，最终对输出序列进行聚合，可以得到字段的最终切分结果为“敷料(抽丝纱布)16层未知块2.1100 4 8.4400”。

本申请实施例提出的图像文字识别方法，通过对文本和位置信息进行编码并加以融合，并自动确定语义和位置之间的关系，从而能够根据位置编码区分图像层面像素距离较大的字段，并且能够根据文本语义编码对距离较近但有明显语义差异的不同字段加以区分，为后续做表格文本内容结构化带来了极大便利。

上述介绍了本申请实施例提到的图像文字识别方法的具体实现，下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图11为本申请实施例提供的图像文字识别装置的结构示意图。该装置可以集成在电子设备中或通过电子设备实现，该电子设备可以为终端设备，也可以是服务器。如图11所示，在本实施例中，该图像文字识别装置110可以包括：获取模块1101、处理模块1102和确定模块1103。

其中，获取模块1101，用于获取待处理图像，所述待处理图像中存在至少一个文本行；

处理模块1102，用于对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，所述合成编码向量携带语义信息和位置信息；

确定模块1103，用于根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定所述待处理图像中的文字识别结果。

在本申请实施例的一种可能设计中，处理模块1102，具体用于对所述待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量，确定所述待处理图像中每个文本行中各单字的坐标信息，对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，所述位置编码向量与所述语义编码向量的维度相同，以及将每个单字的语义编码向量和位置编码向量进行融合，得到每个单字的合成编码向量。

在本申请的实施例中，处理模块1102，用于对所述待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量，具体为：

该处理模块1102，具体用于对于所述待处理图像中的各单字，加权融合所述单字所属文本行中所有单字的语义信息，得到所述单字的语义编码向量。

在本申请的实施例中，处理模块1102，用于对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，具体为：

该处理模块1102，具体用于确定所述待处理图像中表征各单字的多个像素点，根据各个单字对应的多个像素点的坐标信息，确定每个单字的位置向量，根据各个单字对应语义编码向量的维度，对各个单字的位置向量进行维度变换，得到维度与语义编码向量具有相同维度的位置编码向量。

在本申请实施例的另一种可能设计中，确定模块1103，具体用于将每个文本行中各单字对应的合成编码向量输入到预设信息分析网络中，确定各单字的上下文信息，所述预设信息分析网络用于分析各单字的上下文信息，根据各单字的上下文信息，确定出各单字所属的类别标签，将每个文本行中各单字的上下文信息以及各单字所属的类别标签输入到判别式模型中，得到所述待处理图像中的文字识别结果。

在本申请实施例的再一种可能设计中，处理模块1102，还用于在对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量之前，对所述待处理图像进行光学字符识别，确定所述待处理图像中的文本行和每个文本行中各单字的位置信息。

在本申请实施例的又一种可能设计中，确定模块1103，还用于根据所述待处理图像中的文字识别结果，确定每个文本行中每个字段的范围，每个字段包括上下文语义信息相互关联的多个单字，根据每个文本行中同一个字段中所有单字的上下文语义信息，确定所述待处理图像中文本的实际含义。

本申请实施例提供的装置，可用于执行图1至图10所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上***(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

进一步的，根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

图12是用来实现本申请实施例的图像文字识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，该电子设备包括：一个或多个处理器1201、存储器1202，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图12中以一个处理器1201为例。

存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的图像文字识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的图像文字识别方法。

存储器1202作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的图像文字识别方法对应的程序指令/模块(例如，附图11所示的获取模块1101、处理模块1102和确定模块1103)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图像文字识别方法。

存储器1202可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据图像文字识别的电子设备的使用所创建的数据等。此外，存储器1202可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1202可选包括相对于处理器1201远程设置的存储器，这些远程存储器可以通过网络连接至图像文字识别的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图像文字识别的电子设备还可以包括：输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接，图12中以通过总线连接为例。

输入装置1203可接收输入的数字或字符信息，以及产生与图像文字识别的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本申请实施例还提供一种图像文字识别方法，包括：

该实施例的具体实现原理可以参见上述图1至图10所示实施例的记载，此处不再赘述。

根据本申请实施例的技术方案，通过获取待处理图像，该待处理图像中存在至少一个文本行，对待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，该合成编码向量携带语义信息和位置信息，根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定待处理图像中的文字识别结果。该技术方案中，不仅利用了文本的语义特征，而且还融合了文字在图像上的位置信息，能够准确区分图像中像素间距很小的相邻字段，提高了图像中文字识别的准确度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像文字识别方法，其特征在于，包括：

获取待处理图像，所述待处理图像中存在至少一个文本行；

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量，包括：

确定所述待处理图像中每个文本行中各单字的坐标信息；

3.根据权利要求2所述的方法，其特征在于，所述对所述待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，包括：

确定所述待处理图像中表征各单字的多个像素点；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据每个文本行中各单字对应合成编码向量携带的语义信息和位置信息，确定所述待处理图像中的文字识别结果，包括：

根据各单字的上下文信息，确定出各单字所属的类别标签；

6.根据权利要求1-4任一项所述的方法，其特征在于，在所述对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种图像文字识别装置，其特征在于，包括：获取模块、处理模块和确定模块；

9.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于对所述待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量，确定所述待处理图像中每个文本行中各单字的坐标信息，对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，所述位置编码向量与所述语义编码向量的维度相同，以及将每个单字的语义编码向量和位置编码向量进行融合，得到每个单字的合成编码向量。

10.根据权利要求9所述的装置，其特征在于，所述处理模块，用于对所述待处理图像中每个文本行中各单字的语义进行分析，得到每个文本行中各单字对应的语义编码向量，具体为：

11.根据权利要求9所述的装置，其特征在于，所述处理模块，用于对各单字的坐标信息进行编码和纬度变换，得到各单字的位置编码向量，具体为：

12.根据权利要求8-11任一项所述的装置，其特征在于，所述确定模块，具体用于将每个文本行中各单字对应的合成编码向量输入到预设信息分析网络中，确定各单字的上下文信息，所述预设信息分析网络用于分析各单字的上下文信息，根据各单字的上下文信息，确定出各单字所属的类别标签，将每个文本行中各单字的上下文信息以及各单字所属的类别标签输入到判别式模型中，得到所述待处理图像中的文字识别结果。

13.根据权利要求8-11任一项所述的装置，其特征在于，所述处理模块，还用于在对所述待处理图像中的每个文本行进行处理，得到每个文本行中各单字对应的合成编码向量之前，对所述待处理图像进行光学字符识别，确定所述待处理图像中的文本行和每个文本行中各单字的位置信息。

14.根据权利要求8所述的装置，其特征在于，所述确定模块，还用于根据所述待处理图像中的文字识别结果，确定每个文本行中每个字段的范围，每个字段包括上下文语义信息相互关联的多个单字，根据每个文本行中同一个字段中所有单字的上下文语义信息，确定所述待处理图像中文本的实际含义。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种图像文字识别方法，其特征在于，包括：