CN112560862B

CN112560862B - 文本识别方法、装置及电子设备

Info

Publication number: CN112560862B
Application number: CN202011495211.9A
Authority: CN
Inventors: 章成全; 吕鹏原; 姚锟; 韩钧宇; 刘经拓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2024-02-13
Anticipated expiration: 2040-12-17
Also published as: US20210357710A1; CN112560862A; US11861919B2; EP3916634A3; EP3916634A2

Abstract

本申请公开了文本识别方法、装置及电子设备，涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为：获取包括文本信息的图像，所述文本信息包括M个字符，M为大于1的正整数；对所述图像进行文本识别，得到所述M个字符的字符信息；基于所述M个字符的字符信息，识别每个字符的阅读指向信息，所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符；基于所述M个字符的阅读指向信息对所述M个字符进行排序，得到所述文本信息的文本识别结果。根据本申请的技术，解决了OCR技术中存在的文本识别效果比较差的问题，提高了图像中文本的识别效果。

Description

文本识别方法、装置及电子设备

技术领域

本申请涉及人工智能领域，尤其涉及计算机视觉、及深度学习技术领域，具体涉及一种文本识别方法、装置及电子设备。

背景技术

随着人工智能的高速发展，光学字符识别(Optical Character Recognition，OCR)技术在图像处理领域得到了广泛的应用。

目前，OCR技术通常都是以字符成单一方向的阅读方式进行建模的，通常默认阅读方式是从左到右或从上到下，使其仅能识别出图像中相对规则的文本。

发明内容

本公开提供了一种文本识别方法、装置及电子设备。

根据本公开的第一方面，提供了一种文本识别方法，包括：

获取包括文本信息的图像，所述文本信息包括M个字符，M为大于1的正整数；

对所述图像进行文本识别，得到所述M个字符的字符信息；

基于所述M个字符的字符信息，识别每个字符的阅读指向信息，所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符；

基于所述M个字符的阅读指向信息对所述M个字符进行排序，得到所述文本信息的文本识别结果。

根据本公开的第二方面，提供了一种文本识别装置，包括：

获取模块，用于获取包括文本信息的图像，所述文本信息包括M个字符，M为大于1的正整数；

文本识别模块，用于对所述图像进行文本识别，得到所述M个字符的字符信息；

阅读指向识别模块，用于基于所述M个字符的字符信息，识别每个字符的阅读指向信息，所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符；

排序模块，用于基于所述M个字符的阅读指向信息对所述M个字符进行排序，得到所述文本信息的文本识别结果。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法。

根据本公开的第五方面，提供了一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，所述电子设备能够执行所述第一方面中的任一项方法。

根据本申请的技术解决了OCR技术中存在的文本识别效果比较差的问题，提高了图像中文本的识别效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的文本识别方法的流程示意图；

图2是文本识别方法的具体实现示意图；

图3是根据本申请第二实施例的文本识别装置的结构示意图；

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本申请提供一种文本识别方法，包括如下步骤：

步骤S101：获取包括文本信息的图像，所述文本信息包括M个字符，M为大于1的正整数。

本实施例中，文本识别方法涉及人工智能领域，具体涉及计算机视觉技术、及深度学习技术领域，其可以应用于电子设备，该电子设备可以为服务器，也可以为终端，这里不做具体限定。

所述图像可以为包括文本信息的图像，可以称之为文本图像，所述文本信息可以包括至少两个字符。所述图像可以为块区图像，也就是说，所述图像中可以包括至少一个图像块，每个图像块中可以包括至少一个字符。

所述M个字符可以为所述图像中文本信息中的所有字符，也可以为所述图像中文本信息中的部分字符，如所述M个字符为所述图像中某一个或某几个图像块中的字符，这里不做具体限定。

所述图像可以为实时采集的图像，也可以为预先存储的图像，还可以为其他设备发送的图像，或者还可以为从网络上获取的图像。

比如，可以采用手机或者电脑等设备实时采集一张包括文本信息的图像，如店铺的招牌图像、商场店面图像或交通路面文字指示标记图像等，或者获取之前拍摄的且存储在设备中的一张包括文本信息的图像，或者接收其他设备发送的一张包括文本信息的图像，当然，也可以从网络上获取一张包括文本信息的图像。

步骤S102：对所述图像进行文本识别，得到所述M个字符的字符信息。

该步骤中，对所述图像进行文本识别的目的是对所述图像中的字符进行定位和识别，以得到所述图像中M个字符的字符信息。

每个字符的字符信息包括该字符的字符位置信息和字符类别信息，字符位置信息表征该字符在图像中的位置。其中，字符在图像中的位置可以通过字符的中心位置和几何信息共同来表征，字符的几何信息指的是字符的包围盒的信息，字符的包围盒指的是将该字符包围在内的区域，该包围盒可以为正方形，也可以为长方形，或者为其他形状。字符的包围盒以长方形为例，则字符的几何信息可以包括该字符的包围盒的宽和高的长度。

字符的字符类别信息可以表征该字符的类别，且不同的字符，其字符的类别不同，这样，即可以通过字符的字符类别信息确定该字符是什么字符，比如，一字符的字符类别信息表征该字符为“过”，另一字符的字符类别信息表征该字符为“桥”。

可以采用字符定位和识别模块对所述图像进行文本识别，且字符定位和识别模块可以有多种方式实现方式，比如，可以采用现有的或者新的目标检测方法，如YOLO(YouOnly Look Once)的目标检测方法，多视窗(Single Shot multibox Detector，SSD)的目标检测方法，或基于快速的区域卷积网络方法(Faster R-CNN)，对所述图像进行文本识别。

又比如，可以采用全卷积网络(Fully Convolutional Networks，FCN)对所述图像进行文本识别。以下以FCN对所述图像进行文本识别为例进行详细说明。

具体的，可以对所述图像进行预处理，将其处理成尺寸为预设大小的图像，以输入至FCN中。其中，该预设大小可以根据实际需要进行设定，比如，可以设定为256x256的像素大小。

将尺寸为256x256的像素大小的图像作为输入图像输入至FCN之后，可以基于FCN对输入图像进行特征提取，最终生成该输入图像的特征图，该特征图的尺寸比输入图像的尺寸小，比如可以为输入图像的尺寸的1/8，即其尺寸可以为32x32的像素大小。

其中，FCN特征提取的方式可以采用残差网络ResNet和特征金字塔网络(FeaturePyramid Networks，FPN)来进行特征提取，残差网络可以采用ResNet50或其他类的残差网络，这里不做具体限定。

之后，特征图可以经过两个卷积分支，一个卷积分支用于进行字符识别，另一个卷积分支用于进行字符定位。

用于字符识别的卷积分支可以通过字符类别判断，来对字符进行识别，具体可以针对特征图中的每个位置，通过字符类别判断，确定当前位置是否存在字符，且在存在字符的情况下，对字符类别进行识别。其中，该卷积分支可以根据实际情况设置用于字符类别判断的分支通道数，比如，设置为3000或6763。

以常用汉字字集GB2312为例，该卷积分支可以设置分支通道数为6763。在通过该卷积分支进行字符识别时，可以根据该卷积分支的分支通道的激励响应，来确定图像中当前位置的字符类别信息。

比如，若用于字符类别判断的6763个分支通道中目标分支通道存在激励响应，则确定当前位置存在字符，且可以根据该目标分支通道对应的字符类别，确定该字符的字符类别信息，比如，该目标分支通道对应字符“过”，在该目标分支通道存在激励响应时，则可以确定当前位置的字符为“过”。

用于字符定位的卷积分支，可以通过字符中心位置回归，来确定字符的包围盒信息。该卷积分支可以根据实际情况设置用于位置回归的分支通道数，比如，在包围盒为正方形或长方形的情况下，其分支通道数可以设置为4。

在通过分支通道数为4的卷积分支进行字符定位时，若确定当前位置存在字符，则可以回归当前位置，通过这4个分支通道分别预测当前位置与该字符对应的包围盒的左上顶点的坐标偏差值和当前位置与该字符对应的包围盒的右下顶点的坐标偏差值，或者，通过这4个分支通道分别预测当前位置与该字符对应的包围盒的右上顶点的坐标偏差值和当前位置与该字符对应的包围盒的左下顶点的坐标偏差值。

其中，每个分支通道可以预测当前位置与该字符对应的包围盒的一个顶点在一个维度上的坐标偏差值，该维度可以为第一维度，可以称之为x维度，也可以为第二维度，可以称之为y维度。

在当前位置存在字符的情况下，基于当前位置的坐标信息和预测得到的4个坐标偏差值，可以确定该字符的包围盒信息，相应的，可以确定该字符的几何信息。

比如，当前位置的坐标信息为(10，10)，当前位置与当前位置的字符的包围盒的左上顶点的坐标偏差值为(10，10)，当前位置与当前位置的字符的包围盒的右上顶点的坐标偏差值为(5，5)，则可以确定包围盒的左上顶点的坐标信息为(0，20)，右上顶点的坐标信息为(15，5)，该包围盒的宽和高的长度分别为15和15。

最终，通过FCN中的两个卷积分支，可以识别出所述M个字符的字符类别信息，并定位得到所述M个字符的字符位置信息。

需要说明的是，不管采用FCN还是目标检测方法的模型，在对图像进行文本识别之前，通常都是需要进行训练的，具体可以通过大量包括文本信息的训练图像，并标定训练图像中的字符中心位置和包围盒信息，来对FCN或目标检测方法的模型进行训练，训练之后，即可以采用FCN或目标检测方法的模型，对所述图像进行文本识别。

步骤S103：基于所述M个字符的字符信息，识别每个字符的阅读指向信息，所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符。

该步骤中，所述阅读指向信息指的是当前字符在语义阅读顺序下对应的下一个字符，其中，语义阅读顺序指的是按照文本语义阅读的顺序。比如，文本信息为“过桥米线”，则这四个字排列的顺序即为该文本信息的语义阅读顺序。而字符“过”的下一个字符为“桥”，则该字符的阅读指向信息为字符“桥”。

可以采用阅读顺序解码模块，基于所述M个字符的字符信息识别每个字符的阅读指向信息，且识别方式可以包括多种，比如，可以基于所述M个字符的字符信息，采用图神经网络识别每个字符的阅读指向信息，又比如，可以采用文本语义识别技术，基于所述M个字符的字符信息识别每个字符的阅读指向信息。

以下以采用图神经网络为例，简要说明一下基于所述M个字符的字符信息，识别每个字符的阅读指向信息的过程。需要说明的是，所述M个字符可以处于同一图像块，也可以处于不同图像块。

当所述M个字符处于同一图像块时，可以基于所述M个字符的字符信息信息，采用图神经网络识别每个字符的阅读指向信息。当所述M个字符处于不同图像块时，可以针对每个目标图像块，基于所述目标图像块包括的目标字符的字符信息，分别采用图神经网络对所述目标图像块包括的目标字符的阅读指向信息进行识别，最终可以得到所述M个字符中每个字符的阅读指向信息。其中，所述目标图像块可以为包括至少两个字符的图像块。

以下以所述M字符处于同一图像块为例，详细说明基于所述M个字符的字符信息，采用图神经网络识别每个字符的阅读指向信息的过程。

具体的，图神经网络的输入由两个重要信息组成，分别为节点和边。节点对应二维空间上的字符，且每个节点对应二维空间上的一个字符。在实际应用中，节点可以通过一种特定的数据结构或数据对象来表征，文本识别装置可以针对每个字符，以创建数据对象的方式，基于该字符的字符信息创建该字符对应的节点，该字符对应的节点的属性特征包括该字符的字符信息。

相应的，创建该字符的节点之后，可以获取表征该节点的数据对象，该节点的数据对象即为该字符的节点信息。

边的定义指的是节点与节点的连接关系或者由节点之间的连接关系组成的关联矩阵，比如，若节点i和节点j之间相连，则通过这两个节点可以组成一条边，在节点之间存在边的情况下，连接关系可以用数值1表示，在两个节点不相连，即节点之间不存在边的情况下，连接关系可以用数值0表示。

针对每个节点，可以设置该节点与其他节点的连接关系，以得到该节点的边连接信息。在设置该节点与其他节点的连接关系时，可以将该节点与所述M个字符对应的M个节点中除该节点之外的其他所有节点均相连，即该节点与其他节点之间均存在边。

针对每个节点，在设置该节点与其他节点的连接关系时，也可以将该节点与所述M个字符对应的M个节点中除该节点之外的部分节点相连，而与另一部分节点不相连，如包括节点1、节点2、节点3和节点4，针对节点1，可以设置节点1与节点2相连，节点1与节点3相连，而节点1与节点4不相连。

另外，也可以设置该节点与自身的回环连接，若该节点与其自身相连，则该节点与其自身存在回环，连接关系用数值1表示，若不存在回环，则连接关系用数值0表示。

最终，针对每个节点，该节点的边连接信息可以包括M个数值，将所有节点的边连接信息聚合，即可以组成一个MxM的关联矩阵，该关联矩阵中某个位置(i，j)的元素则表示节点i是否与节点j相连，若该元素的数值为1，则表示相连，若该元素的数值为0，则表示不相连。

将之前获取的节点信息和边连接信息输入至图神经网络进行节点的指向预测，得到每个节点的指向信息，其输出也是一个MxM的目标关联矩阵，该目标关联矩阵中某个位置(i，j)的元素表征的是第i个节点是否指向第j个节点。

由于文本信息中字符之间的相对位置是固定的，每个字符仅有一个入边和一个出边，因此，该目标关联矩阵中某个位置(i，j)的元素也可以表征第i个节点对应的字符在语义阅读顺序的下一个字符是否为第j个节点对应的字符。若该位置的元素为数值1，则表示第i个节点对应的字符在语义阅读顺序的下一个字符为第j个节点对应的字符，若该位置的元素为数值0，则表示第i个节点对应的字符在语义阅读顺序的下一个字符不为第j个节点对应的字符。

另外，在文本信息中第一个字符和最后一个字符，其相应的节点的指向信息可以用回环连接表示，即在目标关联矩阵中某个位置如(5，5)的元素为数值1的情况下，则说明第5个节点与其自身存在回环，则该节点对应的字符为第1个字符或最后1个字符。

最终，通过图神经网络输出的该目标关联矩阵，可以确定出每个字符的阅读指向信息。比如，针对第1个节点，目标关联矩阵中(1，2)的元素为数值1，则可以确定第1个节点对应的字符的阅读指向信息为第2个节点对应的字符。又比如，针对第2个节点，目标关联矩阵中(2，4)的元素为数值1，则可以确定第2个节点对应的字符的阅读指向信息为第4个节点对应的字符。

需要说明的是，为了使图神经网络具备识别每个字符的阅读指向信息的能力，需要基于大量的训练文本信息以及训练文本信息中字符的阅读指向的标签信息进行约束和引导，即需要在使用图神经网络时，对该图神经网络进行训练。

步骤S104：基于所述M个字符的阅读指向信息对所述M个字符进行排序，得到所述文本信息的文本识别结果。

该步骤中，可以基于所述M个字符的阅读指向信息对所述M个字符进行排序，最终可以得到所述文本信息的文本识别结果。

参见图2，图2是文本识别方法的具体实现示意图，如图2所示，获取的图像中包括文本信息“过桥米线”，且该图像中的文本信息引入了一些艺术设计，使其不是按照从左至右，从上至下的顺序进行阅读。

将该图像输入至字符定位和识别模块，可以基于字符定位和识别模块，对所述图像进行文本识别，得到4个字符的字符信息，其中，字符信息包括字符类别信息和字符位置信息，按照字符位置信息从上至下，从左至右的排列顺序，第1个字符为“米”，第2个字符为“过”，第3个字符为“桥”，第4个字符为“线”，其输出的结果会是“米过桥线”，可知，其识别出现了语义错误。

在该种应用场景下，如图2所示，可以通过阅读顺序解码模块，识别出每个字符的阅读指向信息，比如，第1个字符“米”指向第4个字符“线”，第2个字符“过”指向第3个字符“桥”，第3个字符“桥”指向第1个字符“米”，第4个字符指向其自身，通过每个字符的阅读指向信息，最终将这4个字符进行排序，得到文本信息的文本识别结果为“过桥米线”。

本实施例中，通过对图像进行文本识别，得到M个字符的字符信息，基于所述M个字符的字符信息，识别每个字符的阅读指向信息，并基于所述M个字符的阅读指向信息对所述M个字符进行排序，得到所述文本信息的文本识别结果。如此，不管是图像中的文本信息为规则文本还是不规则文本的情况下，均可以得到符合语义的文本识别结果，从而可以提高图像中文本的识别效果。

可选的，所述字符信息包括字符位置信息，所述步骤S104之前，还包括：

基于所述M个字符的字符位置信息对所述图像进行分块，得到至少两个图像块，所述至少两个图像块包括所述M个字符；

所述步骤S104具体包括：

基于目标图像块包括的目标字符的字符信息，确定所述目标图像块包括的目标字符的阅读指向信息，所述目标图像块为所述至少两个图像块中包括至少两个字符的图像块。

本实施方式中，可以基于所述M个字符的字符位置信息确定所述M个字符是否处于同一图像块，当所述M个字符处于多个图像块时，可以基于所述M个字符的字符位置信息，对所述图像进行分块，得到至少两个图像块。其分块的原则是通过节点之间的距离对所述图像进行分块，将距离比较远的节点聚合在不同的图像块中，将距离比较近的节点聚合在同一图像块中。

具体的，可以基于所述M个字符的字符位置信息，确定两个字符之间的距离，将距离小于第一预设阈值的节点进行聚合，且将距离大于第二预设阈值的节点分隔开，最终得到至少两个图像块，且每个图像块中均可以包括至少一个字符。

将所述M个字符针对不同图像块进行分隔开之后，在所述图像中包括至少两个目标图像块的情况下，可以针对每个目标图像块，基于目标图像块包括的目标字符的字符信息，确定所述目标图像块包括的目标字符的阅读指向信息，最终得到每个字符的阅读指向信息。其中，目标图像块可以为所述至少两个图像块中包括至少两个字符的图像块，且在图像块中仅包括一个字符的情况下，该字符的阅读指向信息可以默认为指向自身，或者该字符的阅读指向信息可以为0。

本实施方式中，通过基于所述M个字符的字符位置信息对所述图像进行分块，得到至少两个图像块；并基于目标图像块包括的目标字符的字符信息，确定所述目标图像块包括的目标字符的阅读指向信息。如此，可以以目标图像块为单元，分别进行字符的阅读指向信息的识别，最终基于识别出的M个字符的阅读指向信息，确定图像中文本信息的文本识别结果，从而可以提高文本语义识别的准确性，进而可以进一步提高文本识别的效果。

可选的，所述基于目标图像块包括的目标字符的字符信息，确定所述目标图像块包括的目标字符的阅读指向信息，包括：

创建所述目标图像块包括的每个目标字符的节点，以及获取每个目标字符的包括字符信息的节点信息；

获取每个节点的边连接信息，所述边连接信息表征节点之间的连接关系；

基于所述获取的节点信息和所述获取的边连接信息，确定所述目标图像块包括的目标字符的阅读指向信息。

本实施方式中，创建所述目标图像块包括的每个目标字符的节点的方式与上述描述的创建字符的节点的方式类似。只是上述针对的是所述M个字符处于同一图像块的场景，在创建节点时，创建的是所述M个字符中每个字符的节点，而本实施方式中，针对的是所述M个字符处于不同图像块的场景，在创建节点时，针对每个目标图像块，创建的是该目标图像块中的每个目标字符的节点。相应的，获取每个目标字符对应的节点的节点信息。

创建目标字符的节点之后，可以获取每个节点的边连接信息，其中，本实施方式中的边连接信息表征的是针对目标图像块的目标字符对应的节点之间的连接关系。

之后，可以基于获取的节点信息和所述获取的边连接信息，采用阅读顺序解码模块，识别每个目标字符的阅读指向信息。其中，阅读顺序解码模块的识别方式可以采用图神经网络，也可以采用文本语义识别技术，或者其他识别方式，这里不做具体限定。

本实施方式中，通过创建所述目标图像块包括的每个目标字符的节点，以及获取每个目标字符的包括字符信息的节点信息；获取每个节点的边连接信息，所述边连接信息表征节点之间的连接关系；如此，可以基于所述获取的节点信息和所述获取的边连接信息，确定所述目标图像块包括的目标字符的阅读指向信息，从而可以实现文本信息的语义阅读顺序的识别。

可选的，所述基于所述获取的节点信息和所述获取的边连接信息，确定所述目标图像块包括的目标字符的阅读指向信息，包括：

将所述获取的节点信息和所述获取的边连接信息输入至图神经网络进行阅读指向信息预测，以确定所述目标图像块包括的目标字符的阅读指向信息。其中，所述图神经网络可以为现有结构或者新创结构的图神经网络，这里不做具体限定。

以现有结构的图神经网络为例，具体的，图神经网络可以包括多个图神经网络层，该图神经网络层可以为任一种比较常见的图神经网络层。将所述获取的节点信息和所述获取的边连接信息输入至图神经网络之后，可以采用这多个图神经网络层进行堆叠，让其进行信息间的融合推理。之后，在图神经网络的最后一层的关联矩阵在训练过程中进行约束和引导，最终输出表征每个目标字符的阅读指向信息的目标关联矩阵。

本实施方式中，由于字符在二维空间上的排布方式可能存在多种多样，且字符之间的距离也有远近不同的可能，因此，可以以目标图像块为单元，基于目标图像块中目标字符对应的节点的节点信息和边连接信息，采用先进的图神经网络对目标图像块中的目标字符的阅读指向信息进行识别，从而可以实现目标图像块中文本的语义阅读顺序的识别。

可选的，创建的节点中包括第一目标节点，所述第一目标节点为所述创建的节点中任一节点，所述获取每个节点的边连接信息，包括：

基于所述目标图像块包括的目标字符的字符位置信息，确定所述创建的节点中所述第一目标节点对应的第二目标节点，所述第二目标节点与所述第一目标节点之间的距离小于所述创建的节点中除所述第二目标节点之外的其他节点与所述第一目标节点之间的距离；

创建所述第一目标节点与所述第二目标节点的第一连接关系，以及创建所述第一目标节点与所述创建的节点中除所述第二目标节点之外的其他节点的第二连接关系，得到所述第一目标节点的边连接信息，所述第一连接关系表征两个节点之间相连，所述第二连接关系表征两个节点之间不相连。

由于在默认情况下，距离相对比较远的不同字符，其通常不会存在语义关系，因此，本实施方式中，在创建节点之间的连接关系时，可以充分考虑节点之间的距离。可以采用k近邻算法对节点之间的连接关系进行处理，以5近邻算法为例，针对每个节点，可以将该节点和与之相近的5个节点相连，而该节点与其他节点可以不相连。

具体的，针对所创建的任一节点即第一目标节点，可以基于所述目标图像块包括的目标字符的字符位置信息，确定第一目标节点与其他节点之间的距离，基于所确定的距离，采用近邻算法，确定所述创建的节点中所述第一目标节点对应的第二目标节点。

之后，创建所述第一目标节点与所述第二目标节点的第一连接关系，以及创建所述第一目标节点与所述创建的节点中除所述第二目标节点之外的其他节点的第二连接关系。另外，还可以创建所述第一目标节点与其自身的第一连接关系，最终得到所述第一目标节点的边连接信息。

本实施方式中，基于所述目标图像块包括的目标字符的字符位置信息，确定所述创建的节点中所述第一目标节点对应的第二目标节点，并创建所述第一目标节点与所述第二目标节点的第一连接关系，以及创建所述第一目标节点与所述创建的节点中除所述第二目标节点之外的其他节点的第二连接关系。如此，可以减少节点之间的边，进而输入至图神经网络之后，可以减少图神经网络的处理难度。

第二实施例

如图3所示，本申请提供一种文本识别装置300，包括：

获取模块301，用于获取包括文本信息的图像，所述文本信息包括M个字符，M为大于1的正整数；

文本识别模块302，用于对所述图像进行文本识别，得到所述M个字符的字符信息；

阅读指向识别模块303，用于基于所述M个字符的字符信息，识别每个字符的阅读指向信息，所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符；

排序模块304，用于基于所述M个字符的阅读指向信息对所述M个字符进行排序，得到所述文本信息的文本识别结果。

可选的，其中，所述字符信息包括字符位置信息；所述装置还包括：

分块模块，用于基于所述M个字符的字符位置信息对所述图像进行分块，得到至少两个图像块，所述至少两个图像块包括所述M个字符；

所述阅读指向识别模块303，具体用于基于目标图像块包括的目标字符的字符信息，确定所述目标图像块包括的目标字符的阅读指向信息，所述目标图像块为所述至少两个图像块中包括至少两个字符的图像块。

可选的，其中，所述阅读指向识别模块303包括：

创建单元，用于创建所述目标图像块包括的每个目标字符的节点；

第一获取单元，用于获取每个目标字符的包括字符信息的节点信息；

第二获取单元，用于获取每个节点的边连接信息，所述边连接信息表征节点之间的连接关系；

确定单元，用于基于所述获取的节点信息和所述获取的边连接信息，确定所述目标图像块包括的目标字符的阅读指向信息。

可选的，其中，所述确定单元，具体用于将所述获取的节点信息和所述获取的边连接信息输入至图神经网络进行阅读指向信息预测，以确定所述目标图像块包括的目标字符的阅读指向信息。

可选的，其中，创建的节点中包括第一目标节点，所述获取单元，具体用于基于所述目标图像块包括的目标字符的字符位置信息，确定所述创建的节点中所述第一目标节点对应的第二目标节点，所述第二目标节点与所述第一目标节点之间的距离小于所述创建的节点中除所述第二目标节点之外的其他节点与所述第一目标节点之间的距离；创建所述第一目标节点与所述第二目标节点的第一连接关系，以及创建所述第一目标节点与所述创建的节点中除所述第二目标节点之外的其他节点的第二连接关系，得到所述第一目标节点的边连接信息，所述第一连接关系表征两个节点之间相连，所述第二连接关系表征两个节点之间不相连。

本申请提供的文本识别装置300能够实现上述文本识别方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM403中，还可以存储设备400操作所需的各种程序和数据。计算单元401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调整解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如文本识别方法。例如，在一些实施例中，文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM403并由计算单元401执行时，可以执行上文描述的文本识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方法(例如，借助于固件)而被配置为执行文本识别方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编辑语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本识别方法，包括：

对所述图像进行文本识别，得到所述M个字符的字符信息；

基于所述M个字符的阅读指向信息对所述M个字符进行排序，得到所述文本信息的文本识别结果；

在所述M个字符处于同一图像块的情况下，所述基于所述M个字符的字符信息，识别每个字符的阅读指向信息，包括：

创建包括所述M个字符的图像块中每个字符的节点，以及获取每个字符的包括字符信息的节点信息；

基于所述获取的节点信息和所述获取的边连接信息，确定所述M个字符的阅读指向信息。

2.根据权利要求1所述的方法，其中，所述字符信息包括字符位置信息，所述基于所述M个字符的字符信息，识别每个字符的阅读指向信息之前，还包括：

在所述M个字符不处于同一图像块的情况下，基于所述M个字符的字符位置信息对所述图像进行分块，得到至少两个图像块，所述至少两个图像块包括所述M个字符；

所述基于所述M个字符的字符信息，识别每个字符的阅读指向信息，包括：

3.根据权利要求2所述的方法，其中，所述基于目标图像块包括的目标字符的字符信息，确定所述目标图像块包括的目标字符的阅读指向信息，包括：

4.根据权利要求3所述的方法，其中，所述基于所述获取的节点信息和所述获取的边连接信息，确定所述目标图像块包括的目标字符的阅读指向信息，包括：

将所述获取的节点信息和所述获取的边连接信息输入至图神经网络进行阅读指向信息预测，以确定所述目标图像块包括的目标字符的阅读指向信息。

5.根据权利要求3所述的方法，其中，创建的节点中包括第一目标节点，所述第一目标节点为所述创建的节点中任一节点，所述获取每个节点的边连接信息，包括：

6.一种文本识别装置，包括：

排序模块，用于基于所述M个字符的阅读指向信息对所述M个字符进行排序，得到所述文本信息的文本识别结果；

在所述M个字符处于同一图像块的情况下，所述阅读指向识别模块，具体用于，包括：

7.根据权利要求6所述的装置，其中，所述字符信息包括字符位置信息；所述装置还包括：

分块模块，用于在所述M个字符不处于同一图像块的情况下，基于所述M个字符的字符位置信息对所述图像进行分块，得到至少两个图像块，所述至少两个图像块包括所述M个字符；

所述阅读指向识别模块，具体用于基于目标图像块包括的目标字符的字符信息，确定所述目标图像块包括的目标字符的阅读指向信息，所述目标图像块为所述至少两个图像块中包括至少两个字符的图像块。

8.根据权利要求7所述的装置，其中，所述阅读指向识别模块包括：

9.根据权利要求8所述的装置，其中，所述确定单元，具体用于将所述获取的节点信息和所述获取的边连接信息输入至图神经网络进行阅读指向信息预测，以确定所述目标图像块包括的目标字符的阅读指向信息。

10.根据权利要求8所述的装置，其中，创建的节点中包括第一目标节点，所述获取单元，具体用于基于所述目标图像块包括的目标字符的字符位置信息，确定所述创建的节点中所述第一目标节点对应的第二目标节点，所述第二目标节点与所述第一目标节点之间的距离小于所述创建的节点中除所述第二目标节点之外的其他节点与所述第一目标节点之间的距离；创建所述第一目标节点与所述第二目标节点的第一连接关系，以及创建所述第一目标节点与所述创建的节点中除所述第二目标节点之外的其他节点的第二连接关系，得到所述第一目标节点的边连接信息，所述第一连接关系表征两个节点之间相连，所述第二连接关系表征两个节点之间不相连。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。