CN110991445A

CN110991445A - 竖排文字识别方法、装置、设备及介质

Info

Publication number: CN110991445A
Application number: CN201911147784.XA
Authority: CN
Inventors: 张水发; 李岩
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-04-10
Anticipated expiration: 2039-11-21
Also published as: CN110991445B

Abstract

本公开关于一种竖排文字识别方法、装置、设备及介质，属于多媒体技术领域。本公开对待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像，并基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征，对该横排文字的图像特征进行识别，相比于直接对竖排文字的竖向图像进行识别，得到了将该竖排文字调整成了横排文字的图像特征，易于识别，识别出文字的概率大大提高，同时也提高了识别的准确率。

Description

竖排文字识别方法、装置、设备及介质

技术领域

本公开涉及多媒体技术领域，特别涉及一种竖排文字识别方法、装置、设备及介质。

背景技术

文字识别技术可以应用于各种图片中的文字识别，随着技术的不断发展，文字识别的精确度越来越高，人们可以借助文字识别工具实现文字识别，图片中的文字包括横排文字区域和竖排文字区域，对应的，文字识别过程也包括横排文字识别和竖排文字识别。

在相关技术中，竖排文字的识别方法可以为：将待识别的竖排文字的竖向图像输入识别模型中，由识别模型对该竖排图像进行识别，但是识别模型都是用于对横排文字进行识别，横排文字和竖排文字的图像特征之间差别较大，上述方法中识别出文字的概率很小，且准确率低，识别效果差。

发明内容

本公开提供了一种竖排文字识别方法、装置、设备及介质，以至少解决相关技术中直接对竖排文字进行识别，识别出的概率小，且准确率低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种竖排文字识别方法，包括：

对待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像；

基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征；

对该横排文字的图像特征进行识别，得到该竖排文字的文字识别结果。

在一种可能实现方式中，该基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征，包括：

对该横向图像进行特征提取，得到图像特征；

根据该图像特征，获取从目标图像特征变换为该图像特征的第一变换信息，该目标图像特征用于表示该横向图像中竖排文字调整为横排文字后的图像特征；

基于该第一变换信息，对该横向图像的图像特征进行采样，得到该竖排文字对应的横排文字的图像特征。

在一种可能实现方式中，该根据该图像特征，获取从目标图像特征变换为该图像特征的第一变换信息，包括：

基于该图像特征和第二变换信息，获取目标图像特征，该第二变换信息用于将该横向图像中竖排文字调整为横排文字；

基于该图像特征和该目标图像特征，获取从该目标图像特征变换为该图像特征的该第一变换信息。

在一种可能实现方式中，该基于该第一变换信息，对该横向图像的图像特征进行采样，得到该竖排文字对应的横排文字的图像特征，包括：

基于该横向图像的分辨率，生成网格；

基于该网格和该第一变换信息，获取该竖排文字对应的横排文字的图像特征在该横向图像的图像特征中的位置；

基于该横排文字的图像特征在该横向图像的图像特征中的位置，对该横向图像的图像特征进行采样，得到该竖排文字对应的横排文字的图像特征。

在一种可能实现方式中，该对待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像，包括下述任一项：

将该竖向图像逆时针旋转，得到第一横向图像，将该第一横向图像作为该竖排文字对应的横向图像；

将该竖向图像顺时针旋转，得到第二横向图像，将该第二横向图像作为该竖排文字对应的横向图像；

将该竖向图像逆时针旋转，得到第一横向图像，将该竖向图像顺时针旋转，得到第二横向图像，基于该第一横向图像和该第二横向图像，获取第三横向图像，将该第三横向图像作为该竖排文字对应的横向图像。

在一种可能实现方式中，该基于该第一横向图像和该第二横向图像，获取第三横向图像，包括：

对该第一横向图像和该第二横向图像进行通道拼接，得到该第三横向图像。

在一种可能实现方式中，该对该横排文字的图像特征进行识别，得到该竖排文字对应的文字识别结果，包括：

基于该横排文字的图像特征和该横排文字中文字的双向语义关系，对该横排文字的图像特征进行识别，得到该竖排文字对应的文字识别结果。

根据本公开实施例的第二方面，提供一种竖排文字识别装置，包括:

在一种可能实现方式中，该装置包括：

旋转单元，被配置为执行对待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像；

获取单元，被配置为执行基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征；

识别单元，被配置为执行对该横排文字的图像特征进行识别，得到该竖排文字的文字识别结果。

在一种可能实现方式中，该装置还包括：

提取单元，被配置为执行对该横向图像进行特征提取，得到图像特征；

该获取单元还被配置为执行根据该图像特征，获取从目标图像特征变换为该图像特征的第一变换信息，该目标图像特征用于表示该横向图像中竖排文字调整为横排文字后的图像特征；

采样单元，被配置为执行基于该第一变换信息，对该横向图像的图像特征进行采样，得到该竖排文字对应的横排文字的图像特征。

在一种可能实现方式中，该获取单元还被配置为执行：

在一种可能实现方式中，该装置还包括：

生成单元，被配置为执行基于该横向图像的分辨率，生成网格；

该获取单元还被配置为执行：基于该网格和该第一变换信息，获取该竖排文字对应的横排文字的图像特征在该横向图像的图像特征中的位置；

该采样单元还被配置为执行：基于该横排文字的图像特征在该横向图像的图像特征中的位置，对该横向图像的图像特征进行采样，得到该竖排文字对应的横排文字的图像特征。

在一种可能实现方式中，该旋转单元还被配置为执行下述任一项：

在一种可能实现方式中，该装置还包括：

拼接单元，被配置为执行对该第一横向图像和该第二横向图像进行通道拼接，得到该第三横向图像。

在一种可能实现方式中，该识别单元还被配置为执行：

根据本公开实施例的第三方面，提供一种计算机设备，包括：

一个或多个处理器；

用于存储该一个或多个处理器可执行指令的一个或多个存储器；

其中，该一个或多个处理器被配置为执行该指令，以实现上述竖排文字识别方法。

根据本公开实施例的第四方面，提供一种存储介质，包括：

当该存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行上述竖排文字识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括：该计算机程序产品存储有至少一条指令，该指令由处理器加载并执行以实现上述竖排文字识别所执行的操作。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的方法与装置，对待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像，并基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征，对该横排文字的图像特征进行识别，相比于直接对竖排文字的竖向图像进行识别，得到了将该竖排文字调整成了横排文字的图像特征，易于识别，识别出文字的概率大大提高，同时也提高了识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种竖排文字识别方法的流程图；

图2是根据一示例性实施例示出的一种竖排文字识别方法的流程图；

图3是根据一示例性实施例示出的一种获取竖排文字对应的横排文字的图像特征的流程图；

图4是根据一示例性实施例示出的一种竖排文字识别装置的框图；

图5是根据一示例性实施例示出的一种终端的结构示意图；

图6是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

图1是根据一示例性实施例示出的一种竖排文字识别方法的流程图，如图1所示，包括以下步骤。

在步骤S11中，对待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像。

在步骤S12中，基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征。

在步骤S13中，对该横排文字的图像特征进行识别，得到该竖排文字的文字识别结果。

本公开实施例提供的方法，对待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像，并基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征，对该横排文字的图像特征进行识别，相比于直接对竖排文字的竖向图像进行识别，得到了将该竖排文字调整成了横排文字的图像特征，易于识别，识别出文字的概率大大提高，同时也提高了识别的准确率。

对该横向图像进行特征提取，得到图像特征；

基于该横向图像的分辨率，生成网格；

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是根据一示例性实施例示出的一种竖排文字识别方法的流程图，如图2所示，包括以下步骤。

在步骤S21中，计算机设备获取待识别的竖排文字的竖向图像。

在本公开实施例中，该竖排文字的竖向图像中文字的排列方式为竖向，该竖向图像中文字的字体、数量等均可以任意，也即是，该竖排文字的竖向图像中包含的字符的高度、宽度以及字符数量都可以是任意的，本公开实施例对此不进行限定。

该计算机设备可以为终端，也可以为服务器。计算机设备可以通过多种方式获取该竖向图像，例如从图像数据库中提取，从图像网站上下载，自行拍摄等方式，本公开实施例对此不作限定。

在步骤S22中，计算机设备对该待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像。

如果计算机设备直接对该竖向图像进行特征提取和识别，则该竖排文字的特征与横排文字的特征差距较大，识别结果的准确率很低，因而，计算机设备可以将该竖向图像旋转得到横向图像，这样图像中文字之间均在横排上，提取的特征的差距可以减少。

计算机设备在获取到该待识别的竖排文字的竖向图像后，可以通过多种方式对该竖向图像进行旋转，具体地，计算机设备可以采取下述方式一至方式三中的任一种来旋转该竖向图像：

方式一、计算机设备将该竖向图像逆时针旋转，得到第一横向图像，将该第一横向图像作为该竖排文字对应的横向图像。

方式二、计算机设备将该竖向图像顺时针旋转，得到第二横向图像，将该第二横向图像作为该竖排文字对应的横向图像。

方式三、计算机设备将该竖向图像逆时针旋转，得到第一横向图像，将该竖向图像顺时针旋转，得到第二横向图像，基于该第一横向图像和该第二横向图像，获取第三横向图像，将该第三横向图像作为该竖排文字对应的横向图像。

需要说明的是，上述方式一至方式三中，将竖向图像按照一定方向旋转得到横向图像，该横向图像中文字仍为竖排形式，但图像特征中相邻文字之间的位置关系变成了横向关系，更适合根据前后文字进行语义判断。

上述旋转过程中，可以为逆时针或顺时针旋转90度，将该竖向图像旋转为横向图像。其中，该竖排文字的竖向图像中文字方向不固定，可能是从上到下(正向)，也可能是从下到上(反向)。由于不确定文字方向，在上述方式三中，可以两个方向均旋转，综合旋转得到的两个横向图像，来表征该竖向图像。对于文字方向不同的该竖排文字的竖向图像，该计算机设备将该竖向图像顺时针和逆时针进行旋转，基于旋转得到的该第一横向图像和该第二横向图像，获取的该第三横向图像可以是相同的，该过程是对该竖排文字图像进行数据扩增的过程，可以增大数据量，提高文字识别的准确率。

该计算机设备可以通过多种方式，来基于该第一横向图像和该第二横向图像，获取得到该第三横向图像。在一种可能实现方式中，计算机设备可以对该第一横向图像和该第二横向图像进行通道拼接，得到该第三横向图像。

在一种可能实现方式中，该第三横向图像的通道数可以为该第一横向图像的通道数与该第二横向图像的通道数之和。例如，该第一横向图像和该第二横向图像的通道数均为三时，该第三横向图像的通道数可以为六。本公开实施例对该第一横向图像和该第二横向图像的通道数不进行限定。

在一个具体的可能实施例中，计算机设备可以通过连接(concat)函数实现上述通道拼接过程。本公开实施例对计算机设备实现上述通道拼接过程的方式不进行限定。

在一个具体示例中，计算机设备可以将该竖向图像逆时针旋转，得到第一横向图像，将该竖向图像顺时针旋转，得到第二横向图像，该第一横向图像和该第二横向图像的通道数均为三。计算机设备可以通过该concat函数基于该第一横向图像和该第二横向图像，获取第三横向图像，该第三横向图像的通道数为六，可以将该第三横向图像作为该竖排文字对应的横向图像。由于该竖排文字的竖向图像中文字方向不固定，可能是从上到下(正向)，也可能是从下到上(反向)，因此对该竖向图像进行逆时针旋转和顺时针旋转，并将逆时针旋转和顺时针旋转得到的图像进行通道拼接，对于文字方向不同的该竖向图像，进行旋转拼接步骤后，可以得到相同的该第三图像。例如，该竖排文字的竖向图像中文字方向为从上到下时，对该竖向图像进行逆时针旋转和顺时针旋转，可以得到该竖排文字方向不同的第一横向图像和第二横向图像，例如，该第一横向图像中该竖排文字方向可以是从左到右的，该第二横向图像中该竖排文字方向可以是从右到左的。该竖排文字的竖向图像中文字方向为从下到上时，对该竖向图像进行逆时针旋转和顺时针旋转，可以得到该竖排文字方向不同的第一横向图像和第二横向图像，例如，该第一横向图像中该竖排文字方向可以是从右到左的，该第二横向图像中该竖排文字方向可以是从左到右的。对于上述文字方向不同的从上到下和从下到上的该竖向图像，旋转得到对应的第一横向图像和第二横向图像后，基于该第一旋转图像和该第二旋转图像，使用该concat函数通道拼接的得到的该第三图像可以是相同的。该步骤是对数据进行扩增的过程，可以增大数据量，进而提高文字是别的准确率。

在步骤S23中，计算机设备对该横向图像进行特征提取，得到图像特征。

计算机设备获取到横向图像后，可以对其进行特征提取，得到图像特征，作为获取横向文字的图像特征的数据依据，而不是直接将竖向图像的图像特征作为数据依据，该横向图像的图像特征比之竖向图像的图像特征，与横向文字的图像特征更贴近，从而可以提高文字识别的准确性。

计算机设备可以通过多种方法进行该特征提取步骤，例如，计算机设备也可以将该横向图像输入特征提取模型，由该特征提取模型提取该图像特征。

该特征提取模型可以是不同结果的模型，在一个具体示例中，该特征提取模型可以为卷积神经网络(Convolutional Neural Network，CNN)，则上述特征提取过程可以为：计算机设备可以将该横向图像输入卷积神经网络，由该卷积神经网络提取并输出图像特征，本公开实施例对提取特征的具体方法不作限定。

其中，该卷积神经网络可以是多种类型的卷积神经网络，例如，该卷积神经网络可以是视觉几何组16(Visual Geometry Group 16，VGG16)网络，也可以是谷歌初始网(Google inception Network，GoogLeNet)，还可以是残差网络(Residual Network，ResNet)，本公开实施例对此不作限定。

计算机设备提取出的该图像特征可以为该横排图像的颜色特征、纹理特征、空间关系特征，也可以为其他特征，本公开实施例对此不进行限定。

在步骤S24中，计算机设备根据该图像特征，获取从目标图像特征变换为该图像特征的第一变换信息。

该目标图像特征用于表示该横向图像中竖排文字调整为横排文字后的图像特征。该第一变换信息可以包括目标图像特征变换为该图像特征的变换信息，通过该第一变换信息，可以得知目标图像特征变换为该图像特征时对图像特征的变换情况，进而可以进行下一步采样步骤。

计算机设备可以根据该图像特征，通过多种方式获取该第一变换信息，在一种可能实现方式中，该具体过程可以为下述步骤一至步骤二：

步骤一、计算机设备基于该图像特征和第二变换信息，获取目标图像特征。

该第二变换信息用于将该横向图像中竖排文字调整为横排文字。该第二变换信息是从该图像特征到该目标图像特征变化的信息，也即是，上述第一变换信息所指示的变换过程与该第二变换信息所指示的变换过程为互逆的过程。

计算机设备根据该第二变换信息和该图像特征，可以得到该横向图像中竖排文字调整为横排文字后的目标图像特征。自然，通过该图像特征和目标图像特征，也即可以获取到第一变换信息。

其中，该第二变换信息可以是由技术人员根据需求设置的，也可以是提前训练好的，计算机设备在使用时可以直接获取该第二变换信息。

在一种可能实现方式中，在此提供一种具体示例，计算机设备通过训练获得该第二变换信息的过程可以为：计算机设备可以获取多个竖排文字的样本横向图像，以及每个样本横向图像对应的竖排文字调整为横排文字后的目标横向图像，对于每个竖排文字的样本横向图像，计算机设备可以基于竖排文字的样本横向图像和第二变换信息，可以预测得到调整为横排文字后的预测横向图像，从而根据该预测横向图像与目标横向图像之间的相似度，对该第二变换信息进行调整，直至该预测的第二变换信息符合目标条件，将该预测的第二变换信息作为该第二变换信息。该目标条件可以是该相似度收敛，也可以是迭代次数达到目标次数，本公开实施例对此不进行限定。

步骤二、计算机设备基于该图像特征和该目标图像特征，获取从目标图像特征变换为该图像特征的第一变换信息。

计算机设备可以基于该图像特征和该目标图像特征，得到该目标图像特征变换为该图像特征的变换信息，也即是该第一变换信息。

上述第一变换信息的获取过程可以通过一个模型或一个模型内部的网络层实现，例如，以该获取过程通过模型内部的空间变换层实现为例，上述训练得到第二变换信息的过程，其实可以为训练使得该空间变换层能够根据图像特征得到准确的第一变换信息的过程，也即是，通过图像特征计算第一变换信息的方式在模型训练的过程中已经训练得到，当使用模型时，该计算机设备可以将图像特征输入空间网络层，输出对应的第一变换信息。

在步骤S25中，计算机设备基于该第一变换信息，对该横向图像的图像特征进行采样，得到该竖排文字对应的横排文字的图像特征。

该采样过程也即是计算机设备将该横向图像中竖排文字调整为横排文字的过程。计算机设备可以直接基于该第一变换信息，对该横向图像的图像特征进行采样，也可以通过其他方式进行采样。在一种可能实现方式中，计算机设备可以通过下述步骤一至步骤三，完成上述采样步骤：

步骤一、计算机设备基于该横向图像的分辨率，生成网格。

该分辨率可以指该横向图像中存储的信息量，也即是是每英寸图像内有多少个像素点。计算机设备可以通过多种方式基于该横向图像的分辨率，生成网格。在一种可能实现方式中，计算机设备根据该分辨率来划分网格，可以根据网格获取每个位置的坐标信息。该网格的存在形式即为多个坐标位置信息，该多个坐标信息即用于添加像素点从而形成转换为横排文字后的目标图像。

步骤二、计算机设备基于该网格和该第一变换信息，获取该竖排文字对应的横排文字的图像特征在该横向图像的图像特征中的位置。

计算机设备基于该网格可以得到该竖排文字对应的横排文字的图像特征的位置，基于该位置和该第一变换信息，计算机设备可以得到该竖排文字对应的横排文字的图像特征在该横向图像的图像特征中的位置。

上述网格由各个坐标组成，将网格和第一变换信息进行处理后，可以得到处理后的网格，处理后的网格中每个坐标信息用于表示该坐标信息对应的横向图像中图像特征的位置，这样通过该处理后的网格，即可知道去多个图像特征中那个位置进行采样来填充该网络中的位置。

在一种可能实现方式中，该第一变换信息是矩阵形式，计算机设备可以将网格中的坐标信息与矩阵形式的该第一变换信息相乘运算，得到该竖排文字对应的横排文字的图像特征在该横向图像的图像特征中的坐标信息。在一个具体示例中，具体预算过程可以为下述公式一：

公式一：

在该公式一中，

和

可以表示该竖排文字对应的横排文字的图像特征中的位置，

和

可以表示该竖排文字对应的横排文字的图像特征在该横向图像的图像特征中的坐标位置，i表示特征标识，

表示矩阵形式的该第一变换信息，θ₁₁至θ₂₃表示矩阵中的参数。

步骤三、计算机设备基于该横排文字的图像特征在该横向图像的图像特征中的位置，对该横向图像的图像特征进行采样，得到该竖排文字对应的横排文字的图像特征。

计算机设备获取得到了该横排文字的图像特征在该横向图像的图像特征中的位置，则可以去该多个图像中相应位置去进行采样，得到横排文字的图像特征。

上述步骤S23至步骤S25也即是计算机设备基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征的过程，计算机设备可以通过上述步骤S23至步骤S25获取该竖排文字对应的横排文字的图像特征，也可以直接基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征，本公开实施例对此不仅限定。

在一个具体示例中，计算机设备可以将该第三横向图像作为该竖排文字对应的横向图像，对该第三横向图像进行特征提取，得到图像特征，计算机设备可以通过空间转换层根据该图像特征，获取从目标图像特征变换为该图像特征的第一变换信息，也即是上述步骤S24，然后基于该横向图像的分辨率，生成网格，计算机设备基于该网格和该第一变换信息，获取该竖排文字对应的横排文字的图像特征在该横向图像的图像特征中的位置，计算机设备基于该横排文字的图像特征在该横向图像的图像特征中的位置，对该横向图像的图像特征进行采样，得到该竖排文字对应的横排文字的图像特征。

上述步骤一至步骤三也即是计算机设备使用形变参数得到该横向图像中的该竖排文字调整后的特征的过程，该形变参数可以是由该空间转换层自动学习得到的，该过程可以解决该竖向图像旋转为该横向图像后，该横向图像中的该竖排文字变成倒的问题，如果不使用上述步骤对该横向图像进行处理，直接基于该横向图像中成倒的该竖排文字进行文字识别，识别出该竖排文字的概率小，且识别得到的文字准确率低。基于该形变参数，可以得到该横向图像中的该竖排文字调整后的特征，进而大大提高竖排文字的识别率。该空间转换层仅增加少量计算量即可满足计算需求，不会增加计算时间，能够方便简洁的接入网络中，不需要做太大变化，并且能大大减少对样本也即是该横向图像的需求。

例如，图3是根据一示例性实施例示出的一种获取竖排文字对应的横排文字的图像特征的流程图，如图3所示，计算机设备对该第三横向图像进行特征提取，得到图像特征，作为输入特征，输入空间转换层，由空间转换层输出该第一变换信息，然后基于该第三横向图像的分辨率，生成网格，基于该网格和该第一变换信息，获取该竖排文字对应的横排文字的图像特征在该输入特征中的位置，采样层可以根据该位置对该输入特征进行采样，得到输出特征，该输出特征也即是该竖排文字对应的横排文字的图像特征。

在步骤S26中，计算机设备对该横排文字的图像特征进行识别，得到该竖排文字的文字识别结果。

计算机设备可以使用多种方式对该横排文字的图像特征进行识别，例如，可以将该横排文字的图像特征输入目标识别模型，由该目标模型来进行识别，也可以通过目标识别算法来进行识别，本公开实施例对该目标识别模型和该目标识别算法的具体种类不进行限定。

在一种可能实现方式中，计算机设备可以基于该横排文字的图像特征和该横排文字中文字的双向语义关系，对该横排文字的图像特征进行识别，得到该竖排文字对应的文字识别结果。该文字的双向语义关系可以是文字的前向和后向语义依赖关系，基于该双向语义关系，可以更全面的考虑词语在句子中的前后顺序，识别出的结果可以更准确。

在一种具体可能实现方式中，计算机设备可以使用双向长短期记忆(Bi-LongShort-Term Memory，BiLSTM)模型，该BiLSTM模型适用于对字符序列进行识别，可以基于该横排文字的图像特征和该横排文字中文字的双向语义关系，对该横排文字的图像特征进行识别。当然，也可以使用其他模型实现，例如，长短期记忆(Long Short-Term Memory，LSTM)模型，本公开实施例对此不作限定。

图4是根据一示例性实施例示出的一种竖排文字识别装置的框图。参见图4，该装置包括旋转单元401，获取单元402和识别单元403。

旋转单元401，被配置为执行对待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像。

获取单元402，被配置为执行基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征。

识别单元403，被配置为执行对该横排文字的图像特征进行识别，得到该竖排文字的文字识别结果。

在一种可能实现方式中，该装置还包括：

在一种可能实现方式中，该获取单元还被配置为执行：

在一种可能实现方式中，该装置还包括：

在一种可能实现方式中，该识别单元还被配置为执行：

本公开实施例提供的装置，对待识别的竖排文字的竖向图像进行旋转，得到该竖排文字对应的横向图像，并基于该横向图像的图像特征，获取该竖排文字对应的横排文字的图像特征，对该横排文字的图像特征进行识别，相比于直接对竖排文字的竖向图像进行识别，得到了将该竖排文字调整成了横排文字的图像特征，易于识别，识别出文字的概率大大提高，同时也提高了识别的准确率。

需要说明的是：上述实施例提供的竖排文字识别装置在竖排文字识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的竖排文字识别装置与竖排文字识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是根据一示例性实施例示出的一种终端的结构示意图。该终端500可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：一个或多个处理器501和一个或多个存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本公开中方法实施例提供的竖排文字识别方法。

在一些实施例中，终端500还可选包括有：***设备接口503和至少一个***设备。处理器501、存储器502和***设备接口503之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口503相连。具体地，***设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

***设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和***设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和***设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图6是根据一示例性实施例示出的一种服务器的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central ProcessingUnits，CPU)601和一个或多个的存储器602，其中，该一个或多个存储器602中存储有至少一条指令，该至少一条指令由该一个或多个处理器601加载并执行以实现上述各个方法实施例提供的竖排文字识别方法。当然，该服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器600还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的竖排文字识别方法。例如，该存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种竖排文字识别方法，其特征在于，所述方法包括：

对待识别的竖排文字的竖向图像进行旋转，得到所述竖排文字对应的横向图像；

基于所述横向图像的图像特征，获取所述竖排文字对应的横排文字的图像特征；

对所述横排文字的图像特征进行识别，得到所述竖排文字的文字识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述横向图像的图像特征，获取所述竖排文字对应的横排文字的图像特征，包括：

对所述横向图像进行特征提取，得到图像特征；

根据所述图像特征，获取从目标图像特征变换为所述图像特征的第一变换信息，所述目标图像特征用于表示所述横向图像中竖排文字调整为横排文字后的图像特征；

基于所述第一变换信息，对所述横向图像的图像特征进行采样，得到所述竖排文字对应的横排文字的图像特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述图像特征，获取从目标图像特征变换为所述图像特征的第一变换信息，包括：

基于所述图像特征和第二变换信息，获取目标图像特征，所述第二变换信息用于将所述横向图像中竖排文字调整为横排文字；

基于所述图像特征和所述目标图像特征，获取从所述目标图像特征变换为所述图像特征的所述第一变换信息。

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一变换信息，对所述横向图像的图像特征进行采样，得到所述竖排文字对应的横排文字的图像特征，包括：

基于所述横向图像的分辨率，生成网格；

基于所述网格和所述第一变换信息，获取所述竖排文字对应的横排文字的图像特征在所述横向图像的图像特征中的位置；

基于所述横排文字的图像特征在所述横向图像的图像特征中的位置，对所述横向图像的图像特征进行采样，得到所述竖排文字对应的横排文字的图像特征。

5.根据权利要求1所述的方法，其特征在于，所述对待识别的竖排文字的竖向图像进行旋转，得到所述竖排文字对应的横向图像，包括下述任一项：

将所述竖向图像逆时针旋转，得到第一横向图像，将所述第一横向图像作为所述竖排文字对应的横向图像；

将所述竖向图像顺时针旋转，得到第二横向图像，将所述第二横向图像作为所述竖排文字对应的横向图像；

将所述竖向图像逆时针旋转，得到第一横向图像，将所述竖向图像顺时针旋转，得到第二横向图像，基于所述第一横向图像和所述第二横向图像，获取第三横向图像，将所述第三横向图像作为所述竖排文字对应的横向图像。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一横向图像和所述第二横向图像，获取第三横向图像，包括：

对所述第一横向图像和所述第二横向图像进行通道拼接，得到所述第三横向图像。

7.根据权利要求1所述的方法，其特征在于，所述对所述横排文字的图像特征进行识别，得到所述竖排文字对应的文字识别结果，包括：

基于所述横排文字的图像特征和所述横排文字中文字的双向语义关系，对所述横排文字的图像特征进行识别，得到所述竖排文字对应的文字识别结果。

8.一种竖排文字识别装置，其特征在于，所述装置包括：

旋转单元，被配置为执行对待识别的竖排文字的竖向图像进行旋转，得到所述竖排文字对应的横向图像；

获取单元，被配置为执行基于所述横向图像的图像特征，获取所述竖排文字对应的横排文字的图像特征；

识别单元，被配置为执行对所述横排文字的图像特征进行识别，得到所述竖排文字的文字识别结果。

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的竖排文字识别方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由计算机设备的处理器执行时，使得所述计算机设备能够执行如权利要求1至7中任一项所述的竖排文字识别方法。