CN111104941A

CN111104941A - 图像方向纠正方法、装置及电子设备

Info

Publication number: CN111104941A
Application number: CN201911115498.5A
Authority: CN
Inventors: 郭双双; 龚星; 李斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-05-05
Anticipated expiration: 2039-11-14
Also published as: CN111104941B

Abstract

本公开提供了一种图像方向纠正方法、装置及电子设备，涉及人工智能领域。该方法包括：获取待纠正图像，通过图像处理模型对所述待纠正图像中的目标对象进行特征提取，以获取与所述目标对象对应的检测信息；对所述检测信息进行矢量化处理，以获取与所述目标对象对应的坐标信息；基于所述坐标信息确定与所述待纠正图像对应的旋转角度，并根据所述旋转角度对所述待纠正图像的方向进行纠正。本公开能够对存在倾斜的图像进行细粒度旋转角度的纠正，提高了图像方向的纠正精准度；同时能够提高对文档图像中信息的检测效率和识别准确度，进而大大提升了后续信息结构化处理的效率和准确度。

Description

图像方向纠正方法、装置及电子设备

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种图像方向纠正方法、图像方向纠正装置、计算机存储介质及电子设备。

背景技术

随着计算机技术的迅速发展，各个行业的业务逐渐由人工处理模式转换为机器处理模式。并且随着数据量的***式增长，人们对机器处理的效率和精准度提出了越来越高的要求。

以提取文档信息为例，由于拍摄时的角度问题或者其它因素的影响，文档图像存在倾斜，为了保证文档信息的识别效率和精准度，需要对倾斜的文档图像进行纠正。目前对文档图像的纠正主要是根据有限几个固定离散值对图像进行旋转，例如只能旋转90°、180°等等，但是这种方法具有较大局限性，对于存在其它倾斜角度的文档图像，纠正效果较差。

鉴于此，本领域亟需开发一种新的图像方向纠正方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的实施例提供了一种图像方向纠正方法、图像方向纠正装置、计算机存储介质及电子设备，进而至少在一定程度上可以对倾斜图像进行细粒度方向纠正，提高图像方向纠正的精准度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供了一种图像方向纠正方法，包括：获取待纠正图像，通过图像处理模型对所述待纠正图像中的目标对象进行特征提取，以获取与所述目标对象对应的检测信息；对所述检测信息进行矢量化处理，以获取与所述目标对象对应的坐标信息；基于所述坐标信息确定与所述待纠正图像对应的旋转角度，并根据所述旋转角度对所述待纠正图像的方向进行纠正。

根据本公开实施例的一个方面，提供了一种图像方向纠正装置，包括：检测信息获取模块，用于获取待纠正图像，通过图像处理模型对所述待纠正图像中的目标对象进行特征提取，以获取与所述目标对象对应的检测信息；坐标信息获取模块，用于对所述检测信息进行矢量化处理，以获取与所述目标对象对应的坐标信息；图像方向纠正模块，用于基于所述坐标信息确定与所述待纠正图像对应的旋转角度，并根据所述旋转角度对所述待纠正图像的方向进行纠正。

在本公开的一些实施例中，所述图像处理模型包括特征提取子模型、特征融合子模型和后处理子模型；基于前述方案，所述检测信息获取模块包括：目标特征信息获取单元，用于通过所述特征提取子模型对所述目标对象进行多层卷积，以获取多级目标特征信息；目标融合特征信息获取单元，用于通过所述特征融合子模型根据各级所述目标特征信息进行特征融合，以获取目标融合特征信息；检测信息获取单元，用于通过所述后处理子模型对所述目标融合特征信息进行卷积处理，以获取与所述目标对象对应的检测信息。

在本公开的一些实施例中，所述特征提取子模型包括第一卷积层、与所述第一卷积层连接的池化层和与所述池化层连接的残差网络模块，其中所述残差网络模块包括M+1个依次连接的残差网络层，M为正整数；基于前述方案，所述目标特征信息获取单元配置为：将所述待纠正图像输入至所述第一卷积层，通过所述第一卷积层对所述目标对象进行特征提取，以获取初始特征信息；将所述初始特征信息输入至所述池化层，通过所述池化层对所述初始特征信息进行降维处理，以获取降维特征信息；将所述降维特征信息输入至所述残差网络模块，通过所述残差网络模块中依次连接的所述残差网络层对所述降维特征信息进行特征提取，以获取多级所述目标特征信息。

在本公开的一些实施例中，所述特征融合子模型包括依次连接的N个融合网络层和与第N个融合网络层连接的第二卷积层；基于前述方案，所述目标融合特征信息获取单元配置为：通过第n个融合网络层对n-1级融合特征信息和第M+1-n个残差网络层输出的目标特征信息进行融合，以获取n级融合特征信息；重复上一步骤，直至获取N级融合特征信息；将所述N级融合特征信息输入至所述第二卷积层，通过所述第二卷积层对所述N级融合特征信息进行特征提取，以获取所述目标融合特征信息；其中，零级融合特征信息为第M+1个残差网络层输出的目标特征信息，n为不超过N的正整数，N为不超过M的正整数。

在本公开的一些实施例中，所述目标对象为文字，所述检测信息为文字检测信息，所述后处理子模型包括相互独立地第三卷积层、第四卷积层和第五卷积层；基于前述方案，所述检测信息获取单元配置为：通过所述第三卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字检测分数图；通过所述第四卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字距离回归图；通过所述第五卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字边框角度信息。

在本公开的一些实施例中，所述目标对象为直线段，所述检测信息为直线段检测信息，所述后处理子模型包括第六卷积层；基于前述方案，所述检测信息获取单元配置为：通过所述第六卷积层对所述目标融合特征信息进行特征提取，以获取所述直线段检测信息。

在本公开的一些实施例中，所述目标对象为文字和直线段，所述检测信息为文字检测信息和直线段检测信息，所述后处理子模型包括相互独立地第七卷积层、第八卷积层、第九卷积层和第十卷积层；基于前述方案，所述检测信息获取单元配置为：通过所述第七卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字检测分数图；通过所述第八卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字距离回归图；通过所述第九卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字边框角度信息；通过所述第十卷积层对所述目标融合特征信息进行特征提取，以获取所述直线段检测信息。

在本公开的一些实施例中，基于前述方案，所述坐标信息获取模块配置为：根据第一阈值对所述文字检测分数图中的像素进行筛选，以获取文字检测分数大于或等于所述第一阈值的目标像素；根据所述文字距离回归图和所述文字边框角度信息计算与所述目标像素对应的文字的边框坐标；根据所述目标像素对应的文字检测分数和所述边框坐标对应的文字边框的重叠度对所述边框坐标进行过滤，以获取目标文字边框对应的边框坐标。

在本公开的一些实施例中，基于前述方案，所述坐标信息获取模块配置为：对所述直线段检测信息进行霍夫变换，以获取多条线段的坐标信息；将所述多条线段中的任意两条线段确定为第一线段和第二线段，计算所述第一线段的中点到所述第二线段的第一距离和所述第二线段的中点到所述第一线段的第二距离；判断所述第一距离和所述第二距离是否均小于第二阈值；当存在第一距离和第二距离均小于所述第二阈值的目标第一线段和目标第二线段时，将所述第一目标线段和所述第二目标线段进行拼接；获取对所述多条线段进行拼接后所形成的直线段的端点坐标。

在本公开的一些实施例中，所述目标对象为文字，所述坐标信息为目标文字边框的边框坐标；基于前述方案，所述图像方向纠正模块配置为：根据所述目标文字边框的边框坐标确定文字边框的上边线和下边线；计算所述上边线和所述下边线的斜率，统计所述斜率的出现次数，并获取出现次数最多的第一目标斜率；根据所述第一目标斜率确定文字的旋转角度，并将所述文字的旋转角度作为与所述待纠正图像对应的旋转角度。

在本公开的一些实施例中，所述目标对象为直线段，所述坐标信息为直线段的端点坐标；基于前述方案，所述图像方向纠正模块配置为：根据所述直线段的端点坐标计算所述直线段的斜率；统计所述斜率的出现次数，并获取出现次数最多的第二目标斜率；根据所述第二目标斜率确定直线段的旋转角度，并将所述直线段的旋转角度作为与所述待纠正图像对应的旋转角度。

在本公开的一些实施例中，所述目标对象为文字和直线段，所述坐标信息为目标文字边框的边框坐标和直线段的端点坐标；基于前述方案，所述图像方向纠正模块配置为：根据所述目标文字边框的边框坐标计算文字的旋转角度，并根据所述直线段的端点坐标计算直线段的旋转角度；将所述文字的旋转角度与所述直线段的旋转角度作差并取绝对值，以获取旋转角度差；将所述旋转角度差与第三阈值进行比较；当所述旋转角度差小于或等于所述第三阈值时，获取所述文字的旋转角度和所述直线段的旋转角度的平均值，并将所述平均值作为与所述待纠正图像对应的旋转角度；当所述旋转角度差大于所述第三阈值时，将所述直线段的旋转角度作为与所述待纠正图像对应的旋转角度。

在本公开的一些实施例中，基于前述方案，所述图像方向纠正模块配置为：根据所述旋转角度和所述待纠正图像的中心点坐标确定旋转矩阵；将所述待纠正图像对应的像素矩阵与所述旋转矩阵相乘，以对所述待纠正图像的方向进行纠正。

根据本公开实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例所述的图像方向纠正方法。

根据本公开实施例的一个方面，提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上述实施例所述的图像方向纠正方法。

在本公开的实施例所提供的技术方案中，首先获取待纠正图像，并通过图像处理模型对其中的目标对象进行特征提取以获取与目标对象对应的检测信息；接着根据检测信息对目标对象进行矢量化处理以获取与目标对象对应的坐标信息；最后根据坐标信息确定待纠正图像对应的旋转角度，并根据该旋转角度对待纠正图像的方向进行纠正。本公开的技术方案能够对存在倾斜的图像进行细粒度方向纠正，提高了图像方向纠正的精准度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的技术方案的示例性***架构的示意图；

图2示意性示出了根据本公开的一个实施例的图像方向纠正方法的流程示意图；

图3示意性示出了根据本公开的一个实施例的图像处理模型的结构示意图；

图4示意性示出了根据本公开的一个实施例的特征提取子模型的结构示意图；

图5示意性示出了根据本公开的一个实施例的图像处理模型进行特征提取的流程示意图；

图6示意性示出了根据本公开的一个实施例的残差网络层的结构示意图；

图7示意性示出了根据本公开的一个实施例的特征融合子模型的结构示意图；

图8示意性示出了根据本公开的一个实施例的融合网络层的结构示意图；

图9A-9C示意性示出了根据本公开的一个实施例的待纠正图像经图像处理模型处理前后的界面示意图；

图10示意性示出了根据本公开的一个实施例的根据文字检测信息进行矢量化处理的流程示意图；

图11A-11B示意性示出了根据本公开的一个实施例的线段拼接前后的待纠正图像的界面示意图；

图12A-12B示意性示出了根据本公开的一个实施例的对检测信息进行矢量化处理后的界面示意图；

图13A-13B示意性示出了根据本公开的一个实施例的待纠正图像方向纠正前后的界面示意图；

图14A-14D示意性示出了根据本公开的一个实施例的对倾斜的医疗文档图像进行方向纠正的界面示意图；

图15A-15D示意性示出了根据本公开的一个实施例的对倾斜的医疗文档图像进行方向纠正的界面示意图；

图16示意性示出了根据本公开的一个实施例的图像方向纠正装置的框图；

图17示出了适于用来实现本公开实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的技术方案的示例性***架构的示意图。

如图1所示，***架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实际需要，可以具有任意数目的终端设备、网络和服务器。比如服务器103可以是多个服务器组成的服务器集群等。终端设备101可以是诸如笔记本、便携式电脑、智能手机等带有摄像单元和显示屏幕的终端设备，也可以是照相机、摄像机等终端设备。

在本公开的一个实施例中，用户可以通过终端设备101中的摄像单元对包含目标对象的对象进行拍摄，以获取包含目标对象的图像。由于拍摄角度、提交者操作不当或提交场景受限等原因，最终获取的图像可能存在倾斜，不符合正常阅读方向，终端设备101可以将存在倾斜的待纠正图像通过网络102发送至服务器103，服务器103接收到待纠正图像后，可以对其中的目标对象进行特征提取，以获取与目标对象对应的检测信息，该检测信息为像素级的信息，例如通过像素点的数值表示哪里有文字、哪里有线条等等；接着可以对检测信息进行矢量化处理，以获取与目标对象对应的坐标信息，例如可以获取文字边框的边框坐标、直线段的端点坐标，等等；然后基于目标对象对应的坐标信息可以确定待纠正图像对应的旋转角度，该旋转角度即为待纠正图像倾斜的角度；最后根据该旋转角度可以确定旋转矩阵，根据该旋转矩阵对待纠正图像的像素进行变换，进而实现对待纠正图像的方向的纠正。本公开实施例中的待纠正图像可以是各种类型的文档图像，如病历、费用清单、结算清单、医疗***、检验报告单、财务报表等等，本公开实施例的技术方案能够通过对具有任意倾斜角度的图像进行纠正，实现了对倾斜图像细粒度方向的纠正，提高了图像方向纠正的精准度；另外，对纠正方向后的图像进行信息识别，能够提高识别效率和识别精准度。

需要说明的是，本公开实施例所提供的图像方向纠正方法一般由服务器执行，相应地，图像方向纠正装置一般设置于服务器中。但是，在本公开的其它实施例中，也可以由终端设备执行本公开实施例所提供的图像方向纠正方法。

在本领域的相关技术中，以文档图像的纠正为例，由于文档图像的样式繁多，基于简单空间规则的方法很难保证对各种样式的文档图像都适用，目前对图像方向进行纠正的方法主要有两种，第一种：首先定位出文档图像中的字符区域，然后对字符区域中的字符块提取包含字符宽高比、笔画特征、连通域特征等的结构特征。若各结构特征的响应值大于预先设置的可信度，则表明文档方向为正常阅读方向，否则将图像依次旋转90°、180°、270°，直到结构特征的响应值大于可信度，即将文档图像的方向纠正为了正常阅读方向；第二种：首先得到包含有效信息的文本候选区域，随后采用神经网络对该文本候选区域进行特征提取，利用Softmax函数分类出文本区域和非文本区域，最后对文本区域进行分组，逐步获得与训练集图像的重叠部分，所有的重叠部分叠加出来即可获得最终校正文本。

上述两种方法均需首先定位出文本区域，然后依次旋转该区域有限次，以获得特征响应最大的朝向或者该朝向下的文本区域与训练集图像的重叠部分。然而，文档图像的旋转角度并不是可穷举的，将文档图像的朝向分类为一个预先设置的值是不精确不可靠的，在实际应用场景中有较大局限性，另外，上述两种方法仅仅采用简单的文字结构特征，鲁棒性较差，不能适应复杂多变的数据输入。

鉴于相关技术中存在的问题，本公开实施例提供了一种图像方向纠正方法，该图像方向纠正方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本公开实施例提供的方案涉及人工智能的图像处理技术，具体通过如下实施例进行说明：

图2示意性示出了根据本公开的一个实施例的图像方向纠正方法的流程图，该图像方向纠正方法可以由服务器来执行，该服务器可以是图1中所示的服务器103。参照图2所示，该图像方向纠正方法至少包括步骤S210至步骤S230，详细介绍如下：

在步骤S210中，获取待纠正图像，通过图像处理模型对所述待纠正图像中的目标对象进行特征提取，以获取与所述目标对象对应的检测信息。

在本公开的一个实施例中，以文档图像为例，通常通过计算机算法提取文档图像中的信息时，首先需要对纸质文档进行拍照获取文档图像，然后再将文档图像上传到终端或服务器中，进行后续的信息识别和信息提取。在用户通过带有摄像单元的终端设备101对纸质文档进行拍照时，由于拍摄角度、纸张放置角度等因素的影响，拍摄得到的文档图像可能存在倾斜，同时在用户通过终端设备101将本地存储或其它存储介质中的文档图像上传时，由于不当操作也可能使得文档图像存在倾斜。存在倾斜的文档图像是非正常阅读方向的图像，在后期通过光学字符识别算法(OCR算法)或其它机器学习模型对其中的字符进行识别时，识别效率和识别精准度较差，而表现欠佳的字符识别结果会严重影响后续信息结构化处理过程，降低整个***的准确率。因此在获取存在倾斜的文档图像后，需要对其方向进行纠正，保证后续信息识别的文档图像是具有正常阅读方向的文档图像。

在本公开的一个实施例中，将存在倾斜的文档图像作为待纠正图像，在接收到待纠正图像后，可以对其中的目标对象进行特征提取，获取与目标对象对应的检测信息。具体地，可以通过图像处理模型对待纠正图像中的目标对象进行特征提取，以获取与目标对象对应的检测信息。在本公开实施例中，目标对象可以是待纠正图像中的文字和/或直线段，例如当待纠正图像中的内容为日志、小说等纯文字信息时，文字就是目标对象；当待纠正图像是医疗文档、报表、曲谱等包含文字和直线段的图像时，其中的文字和直线段就是目标对象；而当待纠正图像是空白的医疗文档或报表等图像时，其中的直线段就是目标对象。当然还可以是其它类型的待纠正图像，只要其中存在文字和/或直线段时，均可将其作为目标对象。

在本公开的一个实施例中，图3示出了图像处理模型的结构示意图，如图3所示，图像处理模型300包括特征提取子模型301、特征融合子模块302和后处理子模型303，其中特征提取子模型301用于对目标对象进行多层卷积，以获取多级目标特征信息；特征融合子模型302用于根据各级目标特征信息进行特征融合，以获取目标融合特征信息；后处理子模型303用于对目标融合特征信息进行卷积处理，以获取与目标对象对应的检测信息。

在本公开的一个实施例中，图4示出了特征提取子模型301的结构示意图，如图4所示，特征提取子模型301包括第一卷积层401、池化层402和与池化层402连接的残差网络模块403，其中残差网络模块403包括M+1个依次连接的残差网络层：ResBlock1、ResBlock2、……ResBlock M+1，其中M为正整数。

在本公开的一个实施例中，图5示出了图像处理模型进行特征提取的流程示意图，如图5所示，特征提取子模型301中包括第一卷积层501、池化层502和四个依次连接的残差网络层503-1、503-2、503-3和503-4，其中第一卷积层501的卷积核大小为7×7、通道数为64，残差网络层503-1、503-2、503-3和503-4的通道数分别为64、128、256和512。在通过特征提取子模型301对目标对象进行多层卷积时，具体流程为：首先将待纠正图像输入至第一卷积层501，通过第一卷积层501对目标对象进行特征提取，以获取初始特征信息；接着将初始特征信息输入至池化层502，通过池化层502对初始特征信息进行降维处理，以获取降维特征信息；最后将降维特征信息输入至残差网络模块503，通过残差网络模块503中依次连接的残差网络层503-1、503-2、503-3和503-4对降维特征信息进行特征提取，以获取多级目标特征信息。其中通过依次连接的残差网络层503-1、503-2、503-3和503-4对降维特征信息进行特征提取时，首先通过残差网络层503-1对降维特征信息进行卷积处理，以获取一级目标特征信息；接着通过残差网络层503-2对一级目标特征信息进行卷积处理，以获取二级目标特征信息；然后通过残差网络层503-3对二级目标特征信息进行卷积处理，以获取三级目标特征信息；最后通过残差网络层503-4对三级目标特征信息进行卷积处理，以获取四级目标特征信息。当然残差网络模块503中残差网络层的数量不仅限于四个，还可以是其它任意数量，本公开的实施例对此不做具体限定。

在本公开的一个实施例中，图6进一步示出了残差网络层的结构示意图，如图6所示，残差网络层依次包括输入层601、卷积层602、激活层603、卷积层604、连接层605、激活层606和输出层607，其中卷积层602和卷积层604的卷积核大小均为3×3，通道数为64；激活层603和激活层606所采用的激活函数可以是ReLU函数、sigmod函数等。输入层601接收到当前残差网络层之前的网络层的输出信息后，将该输出信息作为当前残差网络层的输入信息，通过卷积层602对输入信息进行卷积处理以获取第一特征信息；接着通过激活层603对第一特征信息进行处理，并将激活处理后的第一特征信息输入至卷积层604，以对其进行进一步地特征提取并获取第二特征信息；接着通过连接层605将第二特征信息和输入信息进行连接，并将连接后的特征信息输入至激活层606，通过激活层606对其进行处理；最后通过输出层607将激活层606处理后的第二特征信息输出至下一网络层进行后续处理。

在残差网络层中，输入信息经过卷积层和激活层后得到与输入信息对应的非线性表达信息，再与本身相加得到输出结果，可以保证浅层网络的信息能够充分传递到深层网络，使网络训练变得更容易，可以解决网络训练过程中的退化问题，并提高了网络的表征能力。

在本公开的一个实施例中，图7示出了特征融合子模型302的结构示意图，如图7所示，特征融合子模型302包括依次连接的N个融合网络层701-1、701-2、……、701-N和与第N个融合网络层701-N连接的第二卷积层702。在获取多级目标特征信息后，可以通过特征融合子模型302中的第n级融合网络层对n-1级融合特征信息和第M+1-n个残差网络层输出的目标特征信息进行融合，以获取n级融合特征信息；重复上一步骤，直至获取N级融合特征信息；接着可以将N级融合特征信息输入至第二卷积层，通过第二卷积层对N级融合特征信息进行特征提取，以获取目标融合特征信息；其中，零级融合特征信息为第M+1个残差网络层输出的目标特征信息，n为不超过N的正整数，N为不超过M的正整数。

返回到图5，其中特征融合子模型302具体包含三个依次连接的融合网络层504-1、504-2和504-3及与第三个融合网络层504-3连接的第二卷积层505，其中，融合网络层504-1、504-2和504-3的通道数分别为128、64和32，第二卷积层505的卷积核大小为3×3，通道数为32。在进行特征融合时，首先由第一个融合网络层504-1将ResBlock4输出的四级目标特征信息与ResBlock3输出的三级目标特征信息进行融合，以获取一级融合特征信息；接着由第二个融合网络层504-2将一级融合特征信息和ResBlock2输出的二级目标特征信息进行融合，以获取二级融合特征信息；然后由第三个融合网络层504-3将二级融合特征信息和ResBlock1输出的一级目标特征信息进行融合，以获取三级融合特征信息；最后将三级融合特征信息输入至第二卷积层505中，通过该第二卷积层505对三级融合特征信息进行特征提取，以获取目标融合特征信息。

在本公开的一个实施例中，图8进一步示出了融合网络层的结构示意图，如图8所示，融合网络层包括第一输入层801、第二输入层802、上池化层803、连接层804、卷积层805、激活层806、卷积层807、激活层808和输出层809，其中卷积层805和卷积层807的卷积核大小均为3×3，通道数为64；激活层806和激活层808采用的激活函数可以是ReLU函数、sigmod函数等等。第一输入层801接收到n-1级融合特征信息后，将其发送至上池化层803，以使上池化层803对n-1级融合特征信息进行上池化，形成与第二输入层802接收到的第M+1-n个残差网络层输出的目标特征信息具有相同大小的n-1级融合特征信息；接着通过连接层804对上池化后的n-1级融合特征信息和第M+1-n个残差网络层输出的目标特征信息进行连接，以获取连接特征信息；然后依次通过卷积层805、激活层806、卷积层807、激活层808对连接特征信息进行卷积-激活-卷积-激活处理，以获取n级融合特征信息；最后通过输出层809将该n级融合特征信息输出至下一网络层，进行后续处理。

在融合网络层中，将深层网络的输出特征和上一浅层的输出特征这两种不同尺度的特征进行一系列操作后，可以融合得到下一个融合网络层的输入信息，像这样持续地融合多尺度特征有利于提供更丰富的信息。同时，与使用类似5×5、7×7的大卷积核不同的是，通过叠加多个3×3的小卷积核来获得相同的感受野，并增加了激活层的个数，可以提高网络的非线性表征能力。

在本公开的一个实施例中，根据目标对象的不同，后处理子模型303的结构不同。当目标对象为文字时，图像处理模型的任务主要是获取文字检测信息，文字检测信息具体可以包括文字检测分数图、文字距离回归图和文字边框角度，相应地，后处理子模型303可以包括三个卷积层：第三卷积层、第四卷积层和第五卷积层，通过第三卷积层对目标融合特征信息进行特征提取以获取文字检测分数图、通过第四卷积层对目标融合特征信息进行特征提取以获取文字距离回归图、通过第五卷积层对目标融合特征信息进行特征提取以获取文字边框角度；当目标对象为直线段时，图像处理模型的任务是获取直线段检测信息，那么后处理子模型303可以只包含一个卷积层：第六卷积层，通过第六卷积层对目标融合特征信息进行特征提取以获取直线段检测信息；当目标对象是文字和直线段时，图像处理模型的任务是获取文字检测信息和直线段检测信息，那么后处理子模型303可以包含四个卷积层：第七卷积层、第八卷积层、第九卷积层和第十卷积层，通过第七卷积层、第八卷积层和第九卷积层分别获取文字检测分数图、文字距离回归图和文字边框角度，并通过第十卷积层对目标融合特征信息进行特征提取以获取直线段检测信息。

返回至图5，后处理子模型303包括第三卷积层506、第四卷积层507、第五卷积层508和第六卷积层509，其中第三卷积层506用于对目标融合特征信息进行特征提取，以获取文字检测分数图；第四卷积层507用于对目标融合特征信息进行特征提取，以获取文字距离回归图；第五卷积层508用于对目标融合特征信息进行特征提取，以获取文字边框角度信息；第六卷积层509用于对目标融合特征信息进行特征提取，以获取直线段检测信息。

图9A-9C示出了待纠正图像经图像处理模型处理前后的界面示意图，如图9A所示为原始的存在倾斜的待纠正图像，经过图像处理模型对待纠正图像中的文字和直线段进行特征提取后，能够获得像素级的文字检测信息(图9B)和直线段检测信息(图9C)。

在本公开的一个实施例中，文字检测分数图中的每一个像素值表示该位置存在文字的可能性的大小，文字距离回归图的每一个像素值表示该位置到最近的文本边框的四条边的距离，文字边框角度信息的每一个像素值表示该位置处文字的旋转角度。根据文字检测分数图、文字距离回归图和文字边框角度信息能够确定文字边框的顶点坐标。同时，直线段检测信息是为了获得待纠正图像中直线段的像素级检测结果。

本公开实施例中的图像处理模型是一种有效、统一地网络结构，能够同时输出文档中文字和直线的像素级检测结果，简洁高效，并且利用了文字和直线段之间的协同效应，同时结合文字和直线段信息来判断文档图像的旋转角度，鲁棒性更好。

在步骤S220中，对所述检测信息进行矢量化处理，以获取与所述目标对象对应的坐标信息。

在本公开的一个实施例中，在步骤S210中获取的文字检测信息和/或直线段检测信息都是像素级的检测结果，无法给出待纠正图像中文字和/或直线段的具体坐标信息，因此需要对得到的检测信息进行矢量化处理，以获取与目标对象对应的坐标信息。

在本公开的一个实施例中，当获取文字检测信息后，可以根据其中的文字检测分数图、文字距离回归图和文字边框角度获取目标文字边框所对应的边框坐标。图10示出了根据文字检测信息进行矢量化处理的流程示意图，如图10所示，该流程至少包括步骤S1001-S1003，具体地：

在步骤S1001中，根据第一阈值对文字检测分数图中的像素进行筛选，以获取文字检测分数大于或等于第一阈值的目标像素。

在本公开的一个实施例中，文字检测分数图具体是一个数字矩阵，其中每一个数字是[0,1]中的任意值，表示该位置处的像素是文字的概率，也就是说，当检测分数值较小时，说明该位置存在文字的概率很小，当检测分数值较大时，说明该位置存在文字的概率较大，因此有必要设置第一阈值，对文字检测分数图中的检测分数进行筛选、过滤，通过将每个位置处的检测分数与第一阈值进行对比，只保留大于或等于该第一阈值的检测分数即可，所保留的检测分数对应的像素位置即为存在文字的位置，进一步地可以将存在文字的位置处的像素定义为目标像素，其中第一阈值可以设置为0.8，也可以设置为其它值，如0.78、0.9等等，本公开的实施例对此不做具体限定。

在步骤S1002中，根据文字距离回归图和文字边框角度信息计算与目标像素对应的文字的边框坐标。

在本公开的一个实施例中，在获取极有可能存在文字的像素位置后，可以在这些像素位置处，根据文字距离回归图和文字边框角度信息计算与目标像素对应的文字的边框坐标，边框坐标即为文字对应的文字边框的四个顶点坐标。文字距离回归图和文字边框角度信息中的每个像素点是一一对应的，对于每个像素点(c_x，c_y)，可以从文字距离回归图中获得该像素点位置对应的4个距离值d₁、d₂、d₃和d₄，分别表示该像素点到边框上边界、右边界、下边界、左边界的垂直距离，并从文字边框角度信息中获取该像素点位置对应的一个角度值，该角度值表示文字边框的旋转角度θ。根据(c_x，c_y)、d₁、d₂、d₃、d₄和θ的值，可以计算出文字边框4个顶点坐标的值，如左上角顶点的坐标值为：x＝(c_x-d₄)cosθ+(c_y+d₁)sinθ+(1-cosθ)c_x-sinθc_y，y＝-(c_x-d₄)sinθ+(c_y+d₁)cosθ+sinθc_x+(1-cosθ)c_y，其它顶点坐标也可以通过相似的计算方法获得，本公开实施例在此不再赘述。

在步骤S1003中，根据目标像素对应的文字检测分数和边框坐标对应的文字边框的重叠度对边框坐标进行过滤，以获取目标文字边框对应的边框坐标。

在本公开的一个实施例中，通过步骤S1002的方法可以获得大量的文字边框，而且部分文字边框之间可能有较大程度的重叠，因此为了获得目标文字边框对应的边框坐标，可以根据文字检测分数和文字边框的重叠度对重叠的文字边框进行筛选、过滤，以获取输出响应大且重叠区域小的目标文字边框，其中输出响应即为文字检测分数，也就是说，目标文字边框中包含文字的可能性极大且与其它的目标文字边框之间不重叠或重叠很少。在本公开的实施例中，具体可以采用非极大值抑制的方法来进行过滤，从一组文字边框中选择具有最大文字检测分数的一个特征文字边框，计算该组文字边框中其它文字边框与特征文字边框之间的重叠度，当重叠度大于预设阈值时，将对应的文字边框过滤掉，然后在剩余的其它组文字边框中不断重复上述步骤，即可获取数个输出响应大且重叠区域小的目标文字边框，进而获取目标文字边框对应的边框坐标。

在本公开的一个实施例中，当获取直线段检测信息后，可以对直线段检测信息进行矢量化处理，以获取与直线段对应的坐标信息。具体地，可以先对直线段检测信息进行霍夫变换，根据像素级的直线段检测信息得到多条线段的坐标信息，该坐标信息为各线段在笛卡儿直角坐标系中的坐标信息；接着可以将多条线段中最近邻的线段拼接，以获取更长的直线段；最后在获取所有拼接后的直线段后，获取直线段两端的端点坐标。

在根据直线段检测信息进行霍夫变换时，首先初始化相关矩阵；相关矩阵包括角度列表、距离列表和投票矩阵，其中，角度列表α＝[0,1,2,…,178,179]，角度列表中的各个角度是指原点到目标直线段的垂线与x坐标轴的角度；距离列表rho＝[-diag_len+1,…,diag_len-1,diag_len]，距离列表中的各个距离是指原点到目标直线段的垂线距离；投票矩阵中的值均为0，其行元素个数为距离列表中的元素个数，列元素个数为角度列表中的元素个数。接着对像素级的直线段检测信息中的每个非零像素点，遍历角度列表中的每个角度值，并计算出该像素点在该角度值下所对应的垂线距离值，距离值和角度值可以组成数据对(rho,α)，此数据对若对应着投票矩阵中的(rho+diag_len,α)位置，那么投票矩阵中该位置的值累计加1。在投票矩阵中，某个矩阵位置的累计值越大则表示该矩阵位置对应的(rho,α)值表示一条置信度很高的直线，因此通过将投票矩阵中各个矩阵位置的累计值与预设阈值进行比较，可以获取累计值大于预设阈值的目标矩阵位置，进而可以获得目标矩阵位置上的(rho,α)。由于直角坐标系中的一条直线对应着极坐标系中的一个点，极坐标系中若有多条曲线交于一个点，则表示该点为直角坐标系中直线的可能性很大，因此可以根据目标矩阵位置上的(rho,α)计算待处理图像中直线段的相关信息。

在将多条线段中最近邻的线段拼接时，可以将多条线段中的任意两条线段确定为第一线段和第二线段；接着计算第一线段的中点到第二线段的第一距离及第二线段的中点到第一线段的第二距离；然后将第一距离和第二距离分别与第二阈值进行比较，并根据比较结果判断是否将第一线段和第二线段进行拼接。具体地，当第一距离和第二距离均小于第二阈值时，说明第一线段和第二线段可以构成直线段，因此可以将第一线段和第二线段进行拼接。严格来说，在多条碎线段中，组成同一直线段的任意两条线段，其中一条的中点到另一条的距离都为0，但是为了提高本公开实施例所提供的图像方向纠正方法的适用范围，第二阈值可以设置为非零的较小数值，例如设置为20，即使第一线段和第二线段没有严格地位于同一直线上，只要不超过第二阈值，就可以对其进行拼接。通过对所有线段执行上述处理，可以获得更长的直线段，线段的数目减少了，长度变长了，进而能够得到更准确的直线斜率，图像整体也显得更加规整。图11A-11B示出了线段拼接前后的待纠正图像的界面示意图，如图11A所示，为霍夫变换后的碎线段，经过拼接后，形成了多条更长的直线段，如图11B中较粗的线条所示。

同时，图12A-12B示出了对检测信息进行矢量化处理后的界面示意图，如图12A所示，为根据对文字检测信息进行矢量化处理后获取的目标文字边框对应的边框坐标所形成的文字边框；如图12B所示，为根据对直线段检测信息进行矢量化处理后获取的多条线段的坐标所形成的直线段。

在步骤S230中，基于所述坐标信息确定与所述待纠正图像对应的旋转角度，并根据所述旋转角度对所述待纠正图像的方向进行纠正。

在本公开的一个实施例中，当目标对象仅是文字时，在获取输出响应大且重叠区域小的目标文字边框的边框坐标后，可以根据边框坐标确定文字边框的上边线和下边线，然后计算上边线和下边线的斜率。由于在步骤S220中会获取多个目标文字边框所对应的边框坐标，因此在计算文字边框的上边线和下边线的斜率后，会产生很多的上边线斜率和下边线斜率，而且各个上边线斜率和下边线斜率不尽相同，为了从中确定待纠正图像的旋转角度，可以对所有的斜率进行统计，获取各斜率的出现次数，并将其中出现次数最多的斜率作为第一目标斜率，该第一目标斜率对应的角度即为文字的旋转角度，也是待纠正图像的旋转角度。例如第一目标斜率为1，那么待纠正图像的旋转角度为从正常阅读方向顺时针旋转45°或逆时针旋转225°。

在本公开的一个实施例中，当目标对象仅是直线段时，由于待纠正图像中可能存在多条直线段，因此为了获取待纠正图像的旋转角度，可以计算每一条直线段的斜率，然后统计各个斜率的出现次数，并将出现次数最多的斜率作为第二目标斜率，该第二目标斜率对应的角度即为直线段的旋转角度，也就是待纠正图像的旋转角度。例如第二目标斜率为

那么待纠正图像的旋转角度为从正常阅读方向逆时针旋转30°或顺时针旋转270°。当待纠正图像中只有一条直线段时，该直线段的斜率对应的角度即为待纠正图像的旋转角度。

在本公开的一个实施例中，当目标对象为文字和直线段时，可以通过上述方法获取文字的旋转角度和直线段的旋转角度，然后根据文字的旋转角度和直线段的旋转角度确定待纠正图像的旋转角度。具体地，首先将文字的旋转角度与直线段的旋转角度作差并取绝对值，以获取旋转角度差；接着将旋转角度差与第三阈值进行比较；当旋转角度差小于或等于第三阈值时，获取文字的旋转角度和直线段的旋转角度的平均值，并将平均值作为与待纠正图像对应的旋转角度；当旋转角度差大于第三阈值时，将直线段的旋转角度作为与待纠正图像对应的旋转角度。例如当文字的旋转角度为顺时针旋转45°，直线段的旋转角度为顺时针旋转44°，且第三阈值为1°时，根据文字的旋转角度和直线段的旋转角度可以确定二者之间的旋转角度差为1°，该旋转角度差等于第三阈值，那么可以求取文字的旋转角度和直线段的旋转角度的平均值45.5°，并将该平均值45.5°作为待纠正图像的旋转角度。若文字的旋转角度为顺时针旋转45°，直线段的旋转角度为顺时针旋转43°，且第三阈值为1°时，由于文字的旋转角度和直线段的旋转角度之间的旋转角度差为2°，该旋转角度差大于第三阈值，那么可以将直线段的旋转角度43°作为待纠正图像的旋转角度。

图13A-13B示出了待纠正图像方向纠正前后的界面示意图，如图13A所示，为原始存在倾斜的待纠正图像，根据本公开实施例的图像方向纠正方法纠正后，形成了符合正常阅读方向的图像，如图13B所示。

在本公开的一个实施例中，在目标对象包括文字和直线段时，根据文字的旋转角度和直线段的旋转角度确定待纠正图像的旋转角度，不仅利用了文档图像中的文字信息，还利用了文档图像中的直线信息，两者相辅相成，有效规避了任意一种信息缺失或异常的风险，使得确定的待纠正图像的旋转角度更精准，更具有鲁棒性。

在本公开的一个实施例中，获取待纠正图像的旋转角度后，可以根据该旋转角度对待纠正图像的方向进行纠正。具体地，可以根据待纠正图像的旋转角度和待纠正图像的中心点坐标确定旋转矩阵，再根据旋转矩阵对待纠正图像进行纠正。旋转矩阵可以根据式一确定：

其中，M为旋转矩阵，θ为待纠正图像的旋转角度，(c_0x，c_0y)为待纠正图像的中心点坐标。

在根据旋转矩阵对待纠正图像进行纠正时，可以将待纠正图像对应的像素矩阵与旋转矩阵相乘，即可实现对待纠正图像方向的纠正，使文档图像的方向变为正常阅读方向。

在本公开的一个实施例中，在获取待纠正图像后，可以对待纠正图像先进行第一次方向纠正，如将待纠正图像进行90°、180°、270°等角度的纠正，以使第一次方向纠正后的待纠正图像的旋转角度限制在[-45°，45°]范围内，然后再对旋转角度在[-45°，45°]范围内的待纠正图像通过图像处理模型进行特征提取以获取检测信息、对检测信息进行矢量化处理和根据矢量化处理得到的坐标信息进行第二次方向纠正，其中特征提取、矢量化处理和第二次方向纠正的方法与上述实施例的方法相同，本公开实施例在此不再赘述。

在本公开的一个实施例中，在获取具有正常阅读方向的文档图像后，可以对文档图像进行光学字符识别，以识别并获取其中的文本信息。当然也可以通过其它的机器学习模型，如卷积神经网络、循环神经网络等等，对文档图像进行特征提取，以获取其中的文本信息。

以医疗文档图像为例，图14A-14D示出了对倾斜的医疗文档图像进行方向纠正的界面示意图，如图14A所示，为原始的存在倾斜的医疗文档图像，其倾斜方向为顺时针方向，倾斜角度在[-45°，45°]范围内；通过图像处理模型对倾斜的医疗文档图像中的文字和直线段进行特征提取，能够获得与文字对应的文字检测信息和与直线段对应的直线段检测信息，其中文字检测信息和直线段检测信息均为像素级别的；接着对文字检测信息和直线段检测信息进行矢量化处理，具体地，对文字检测信息进行矢量化处理，首先根据文字检测分数图对文字的像素位置进行过滤，接着根据文字距离回归图和文字边框角度计算每个文字边框的顶点坐标，最后通过非极大值抑制过滤掉部分文字边框，进而能够获得特征响应大且重叠区域小的目标文字边框和目标文本边框对应的边框坐标；对直线段检测信息进行矢量化处理，首先对直线段检测信息进行霍夫变换以获取多条碎线段，接着对碎线段进行距离判断，最后将相近的碎线段拼接即可形成长的直线段，并获取拼接后的直线段的端点坐标，其中目标文字边框如图14B所示，拼接后的直线段如图14C中较粗的线条所示；最后根据边框坐标能够确定文字的旋转角度，根据直线段的端点坐标能够确定直线段的旋转角度，进而根据文字的旋转角度和直线段的旋转角度能够确定倾斜的医疗文档图像的旋转角度，根据该旋转角度可以确定旋转矩阵，并根据旋转矩阵对倾斜的医疗文档图像进行处理，以获得纠正方向后的医疗文档图像，如图14D所示。

同样地，图15A-15D还示出了对倾斜的医疗文档图像进行方向纠正的界面示意图，其中图15A示出了原始的存在倾斜的医疗文档图像，图15B示出了医疗文档图像中的目标文字边框，图15C示出了医疗文档图像中拼接后的直线段，图15D示出了纠正方向后的医疗文档图像，获取各界面示意图的方法与图14中的方法相同，在此不再赘述。

本公开实施例通过具有特征提取子模型、特征融合子模型和后处理子模型的图像处理模型对待纠正图像中的目标对象进行特征提取，获取与目标对象对应的检测信息；接着对检测信息进行矢量化处理以获取与目标对象对应的坐标信息；最后基于坐标信息确定与待纠正图像对应的旋转角度，并根据旋转角度对待纠正图像的方向进行纠正。本公开实施例通过结合传统图像处理技术和深度学习技术能够对待纠正图像进行细粒度旋转角度的纠正，提高了待纠正图像的纠正精准度；同时能够提高信息检测和信息识别的效率和准确度，进而大大提升了后续信息结构化处理的效率和准确度。

以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的图像方向纠正方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的图像方向纠正方法的实施例。

图16示意性示出了根据本公开的一个实施例的图像方向纠正装置的框图。

参照图16所示，根据本公开的一个实施例的图像方向纠正装置1600，包括：检测信息获取模块1601、坐标信息获取模块1602和图像方向纠正模块1603。

其中，检测信息获取模块1601，用于获取待纠正图像，通过图像处理模型对所述待纠正图像中的目标对象进行特征提取，以获取与所述目标对象对应的检测信息；坐标信息获取模块1602，用于对所述检测信息进行矢量化处理，以获取与所述目标对象对应的坐标信息；图像方向纠正模块1603，用于基于所述坐标信息确定与所述待纠正图像对应的旋转角度，并根据所述旋转角度对所述待纠正图像的方向进行纠正。

在本公开的一个实施例中，所述图像处理模型包括特征提取子模型、特征融合子模型和后处理子模型；所述检测信息获取模块1601包括：目标特征信息获取单元，用于通过所述特征提取子模型对所述目标对象进行多层卷积，以获取多级目标特征信息；目标融合特征信息获取单元，用于通过所述特征融合子模型根据各级所述目标特征信息进行特征融合，以获取目标融合特征信息；检测信息获取单元，用于通过所述后处理子模型对所述目标融合特征信息进行卷积处理，以获取与所述目标对象对应的检测信息。

在本公开的一个实施例中，所述特征提取子模型包括第一卷积层、与所述第一卷积层连接的池化层和与所述池化层连接的残差网络模块，其中所述残差网络模块包括M+1个依次连接的残差网络层，M为正整数；所述目标特征信息获取单元配置为：将所述待纠正图像输入至所述第一卷积层，通过所述第一卷积层对所述目标对象进行特征提取，以获取初始特征信息；将所述初始特征信息输入至所述池化层，通过所述池化层对所述初始特征信息进行降维处理，以获取降维特征信息；将所述降维特征信息输入至所述残差网络模块，通过所述残差网络模块中依次连接的所述残差网络层对所述降维特征信息进行特征提取，以获取多级所述目标特征信息。

在本公开的一个实施例中，所述特征融合子模型包括依次连接的N个融合网络层和与第N个融合网络层连接的第二卷积层；所述目标融合特征信息获取单元配置为：通过第n个融合网络层对n-1级融合特征信息和第M+1-n个残差网络层输出的目标特征信息进行融合，以获取n级融合特征信息；重复上一步骤，直至获取N级融合特征信息；将所述N级融合特征信息输入至所述第二卷积层，通过所述第二卷积层对所述N级融合特征信息进行特征提取，以获取所述目标融合特征信息；其中，零级融合特征信息为第M+1个残差网络层输出的目标特征信息，n为不超过N的正整数，N为不超过M的正整数。

在本公开的一个实施例中，所述目标对象为文字，所述检测信息为文字检测信息，所述后处理子模型包括相互独立地第三卷积层、第四卷积层和第五卷积层；所述检测信息获取单元配置为：通过所述第三卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字检测分数图；通过所述第四卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字距离回归图；通过所述第五卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字边框角度信息。

在本公开的一个实施例中，所述目标对象为直线段，所述检测信息为直线段检测信息，所述后处理子模型包括第六卷积层；所述检测信息获取单元配置为：通过所述第六卷积层对所述目标融合特征信息进行特征提取，以获取所述直线段检测信息。

在本公开的一个实施例中，所述目标对象为文字和直线段，所述检测信息为文字检测信息和直线段检测信息，所述后处理子模型包括相互独立地第七卷积层、第八卷积层、第九卷积层和第十卷积层；所述检测信息获取单元配置为：通过所述第七卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字检测分数图；通过所述第八卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字距离回归图；通过所述第九卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字边框角度信息；通过所述第十卷积层对所述目标融合特征信息进行特征提取，以获取所述直线段检测信息。

在本公开的一个实施例中，所述坐标信息获取模块1602配置为：根据第一阈值对所述文字检测分数图中的像素进行筛选，以获取文字检测分数大于或等于所述第一阈值的目标像素；根据所述文字距离回归图和所述文字边框角度信息计算与所述目标像素对应的文字的边框坐标；根据所述目标像素对应的文字检测分数和所述边框坐标对应的文字边框的重叠度对所述边框坐标进行过滤，以获取目标文字边框对应的边框坐标。

在本公开的一个实施例中，所述坐标信息获取模块1602配置为：对所述直线段检测信息进行霍夫变换，以获取多条线段的坐标信息；将所述多条线段中的任意两条线段确定为第一线段和第二线段，计算所述第一线段的中点到所述第二线段的第一距离和所述第二线段的中点到所述第一线段的第二距离；判断所述第一距离和所述第二距离是否均小于第二阈值；当存在第一距离和第二距离均小于所述第二阈值的目标第一线段和目标第二线段时，将所述第一目标线段和所述第二目标线段进行拼接；获取对所述多条线段进行拼接后所形成的直线段的端点坐标。

在本公开的一个实施例中，所述目标对象为文字，所述坐标信息为目标文字边框的边框坐标；所述图像方向纠正模块1603配置为：根据所述目标文字边框的边框坐标确定文字边框的上边线和下边线；计算所述上边线和所述下边线的斜率，统计所述斜率的出现次数，并获取出现次数最多的第一目标斜率；根据所述第一目标斜率确定文字的旋转角度，并将所述文字的旋转角度作为与所述待纠正图像对应的旋转角度。

在本公开的一个实施例中，所述目标对象为直线段，所述坐标信息为直线段的端点坐标；所述图像方向纠正模块1603配置为：根据所述直线段的端点坐标计算所述直线段的斜率；统计所述斜率的出现次数，并获取出现次数最多的第二目标斜率；根据所述第二目标斜率确定直线段的旋转角度，并将所述直线段的旋转角度作为与所述待纠正图像对应的旋转角度。

在本公开的一个实施例中，所述目标对象为文字和直线段，所述坐标信息为目标文字边框的边框坐标和直线段的端点坐标；所述图像方向纠正模块1603配置为：根据所述目标文字边框的边框坐标计算文字的旋转角度，并根据所述直线段的端点坐标计算直线段的旋转角度；将所述文字的旋转角度与所述直线段的旋转角度作差并取绝对值，以获取旋转角度差；将所述旋转角度差与第三阈值进行比较；当所述旋转角度差小于或等于所述第三阈值时，获取所述文字的旋转角度和所述直线段的旋转角度的平均值，并将所述平均值作为与所述待纠正图像对应的旋转角度；当所述旋转角度差大于所述第三阈值时，将所述直线段的旋转角度作为与所述待纠正图像对应的旋转角度。

在本公开的一个实施例中，所述图像方向纠正模块1603配置为：根据所述旋转角度和所述待纠正图像的中心点坐标确定旋转矩阵；将所述待纠正图像对应的像素矩阵与所述旋转矩阵相乘，以对所述待纠正图像的方向进行纠正。

需要说明的是，图17示出的电子设备的计算机***1700仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图17所示，计算机***1700包括中央处理单元(Central Processing Unit，CPU)1701，其可以根据存储在只读存储器(Read-Only Memory，ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(Random Access Memory，RAM)1703中的程序而执行各种适当的动作和处理，实现上述实施例中所述的图像标注方法。在RAM 1703中，还存储有***操作所需的各种程序和数据。CPU 1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出(Input/Output，I/O)接口1705也连接至总线1704。

以下部件连接至I/O接口1705：包括键盘、鼠标等的输入部分1706；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1707；包括硬盘等的存储部分1708；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1710上，以便于从其上读出的计算机程序根据需要被安装入存储部分1708。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1709从网络上被下载和安装，和/或从可拆卸介质1711被安装。在该计算机程序被中央处理单元(CPU)1701执行时，执行本公开的***中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的图像处理装置中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像方向纠正方法，其特征在于，包括：

获取待纠正图像，通过图像处理模型对所述待纠正图像中的目标对象进行特征提取，以获取与所述目标对象对应的检测信息；

对所述检测信息进行矢量化处理，以获取与所述目标对象对应的坐标信息；

基于所述坐标信息确定与所述待纠正图像对应的旋转角度，并根据所述旋转角度对所述待纠正图像的方向进行纠正。

2.根据权利要求1所述的方法，其特征在于，所述图像处理模型包括特征提取子模型、特征融合子模型和后处理子模型；

所述通过图像处理模型对所述待纠正图像中的目标对象进行特征提取，以获取与所述目标对象对应的检测信息，包括：

通过所述特征提取子模型对所述目标对象进行多层卷积，以获取多级目标特征信息；

通过所述特征融合子模型根据各级所述目标特征信息进行特征融合，以获取目标融合特征信息；

通过所述后处理子模型对所述目标融合特征信息进行卷积处理，以获取与所述目标对象对应的检测信息。

3.根据权利要求2所述的方法，其特征在于，所述特征提取子模型包括第一卷积层、与所述第一卷积层连接的池化层和与所述池化层连接的残差网络模块，其中所述残差网络模块包括M+1个依次连接的残差网络层，M为正整数；

所述通过所述特征提取子模型对所述目标对象进行多层卷积，以获取多级目标特征信息，包括：

将所述待纠正图像输入至所述第一卷积层，通过所述第一卷积层对所述目标对象进行特征提取，以获取初始特征信息；

将所述初始特征信息输入至所述池化层，通过所述池化层对所述初始特征信息进行降维处理，以获取降维特征信息；

将所述降维特征信息输入至所述残差网络模块，通过所述残差网络模块中依次连接的所述残差网络层对所述降维特征信息进行特征提取，以获取多级所述目标特征信息。

4.根据权利要求2所述的方法，其特征在于，所述特征融合子模型包括依次连接的N个融合网络层和与第N个融合网络层连接的第二卷积层；

所述通过所述特征融合子模型根据各级所述目标特征信息进行特征融合，以获取目标融合特征信息，包括：

通过第n个融合网络层对n-1级融合特征信息和第M+1-n个残差网络层输出的目标特征信息进行融合，以获取n级融合特征信息；

重复上一步骤，直至获取N级融合特征信息；

将所述N级融合特征信息输入至所述第二卷积层，通过所述第二卷积层对所述N级融合特征信息进行特征提取，以获取所述目标融合特征信息；

其中，零级融合特征信息为第M+1个残差网络层输出的目标特征信息，n为不超过N的正整数，N为不超过M的正整数。

5.根据权利要求1所述的方法，其特征在于，所述目标对象为文字，所述检测信息为文字检测信息，所述后处理子模型包括相互独立地第三卷积层、第四卷积层和第五卷积层；

所述通过所述后处理子模型根据所述目标融合特征信息进行卷积处理，以获取所述检测信息，包括：

通过所述第三卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字检测分数图；

通过所述第四卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字距离回归图；

通过所述第五卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字边框角度信息。

6.根据权利要求1所述的方法，其特征在于，所述目标对象为直线段，所述检测信息为直线段检测信息，所述后处理子模型包括第六卷积层；

通过所述第六卷积层对所述目标融合特征信息进行特征提取，以获取所述直线段检测信息。

7.根据权利要求1所述的方法，其特征在于，所述目标对象为文字和直线段，所述检测信息为文字检测信息和直线段检测信息，所述后处理子模型包括相互独立地第七卷积层、第八卷积层、第九卷积层和第十卷积层；

通过所述第七卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字检测分数图；

通过所述第八卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字距离回归图；

通过所述第九卷积层对所述目标融合特征信息进行特征提取，以获取所述文字检测信息中的文字边框角度信息；

通过所述第十卷积层对所述目标融合特征信息进行特征提取，以获取所述直线段检测信息。

8.根据权利要求5所述的方法，其特征在于，所述对所述检测信息进行矢量化处理，以获取与所述目标对象对应的坐标信息，包括：

根据第一阈值对所述文字检测分数图中的像素进行筛选，以获取文字检测分数大于或等于所述第一阈值的目标像素；

根据所述文字距离回归图和所述文字边框角度信息计算与所述目标像素对应的文字的边框坐标；

根据所述目标像素对应的文字检测分数和所述边框坐标对应的文字边框的重叠度对所述边框坐标进行过滤，以获取目标文字边框对应的边框坐标。

9.根据权利要求6所述的方法，其特征在于，所述对所述检测信息进行矢量化处理，以获取与所述目标对象对应的坐标信息，包括：

对所述直线段检测信息进行霍夫变换，以获取多条线段的坐标信息；

将所述多条线段中的任意两条线段确定为第一线段和第二线段，计算所述第一线段的中点到所述第二线段的第一距离和所述第二线段的中点到所述第一线段的第二距离；

判断所述第一距离和所述第二距离是否均小于第二阈值；

当存在第一距离和第二距离均小于所述第二阈值的目标第一线段和目标第二线段时，将所述第一目标线段和所述第二目标线段进行拼接；

获取对所述多条线段进行拼接后所形成的直线段的端点坐标。

10.根据权利要求1所述的方法，其特征在于，所述目标对象为文字，所述坐标信息为目标文字边框的边框坐标；

所述基于所述坐标信息确定与所述待纠正图像对应的旋转角度，包括：

根据所述目标文字边框的边框坐标确定目标文字边框的上边线和下边线；

计算所述上边线和所述下边线的斜率，统计所述斜率的出现次数，并获取出现次数最多的第一目标斜率；

根据所述第一目标斜率确定文字的旋转角度，并将所述文字的旋转角度作为与所述待纠正图像对应的旋转角度。

11.根据权利要求1所述的方法，其特征在于，所述目标对象为直线段，所述坐标信息为直线段的端点坐标；

根据所述直线段的端点坐标计算所述直线段的斜率；

统计所述斜率的出现次数，并获取出现次数最多的第二目标斜率；

根据所述第二目标斜率确定直线段的旋转角度，并将所述直线段的旋转角度作为与所述待纠正图像对应的旋转角度。

12.根据权利要求1所述的方法，其特征在于，所述目标对象为文字和直线段，所述坐标信息为目标文字边框的边框坐标和直线段的端点坐标；

根据所述目标文字边框的边框坐标计算文字的旋转角度，并根据所述直线段的端点坐标计算直线段的旋转角度；

将所述文字的旋转角度与所述直线段的旋转角度作差并取绝对值，以获取旋转角度差；

将所述旋转角度差与第三阈值进行比较；

当所述旋转角度差小于或等于所述第三阈值时，获取所述文字的旋转角度和所述直线段的旋转角度的平均值，并将所述平均值作为与所述待纠正图像对应的旋转角度；

当所述旋转角度差大于所述第三阈值时，将所述直线段的旋转角度作为与所述待纠正图像对应的旋转角度。

13.根据权利要求1所述的方法，其特征在于，所述根据所述旋转角度对所述待纠正图像的方向进行纠正，包括：

根据所述旋转角度和所述待纠正图像的中心点坐标确定旋转矩阵；

将所述待纠正图像对应的像素矩阵与所述旋转矩阵相乘，以对所述待纠正图像的方向进行纠正。

14.一种图像方向纠正装置，其特征在于，包括：

检测信息获取模块，用于获取待纠正图像，通过图像处理模型对所述待纠正图像中的目标对象进行特征提取，以获取与所述目标对象对应的检测信息；

坐标信息获取模块，用于对所述检测信息进行矢量化处理，以获取与所述目标对象对应的坐标信息；

图像方向纠正模块，用于基于所述坐标信息确定与所述待纠正图像对应的旋转角度，并根据所述旋转角度对所述待纠正图像的方向进行纠正。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至13中任一项所述的图像方向纠正方法。