CN112434640B - 确定文档图像的旋转角度方法、装置及存储介质 - Google Patents

确定文档图像的旋转角度方法、装置及存储介质 Download PDF

Info

Publication number
CN112434640B
CN112434640B CN202011410416.2A CN202011410416A CN112434640B CN 112434640 B CN112434640 B CN 112434640B CN 202011410416 A CN202011410416 A CN 202011410416A CN 112434640 B CN112434640 B CN 112434640B
Authority
CN
China
Prior art keywords
text line
text
determining
category
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011410416.2A
Other languages
English (en)
Other versions
CN112434640A (zh
Inventor
刘坚强
彭鑫
周代国
吴鹏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Xiaomi Technology Wuhan Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Xiaomi Technology Wuhan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd, Xiaomi Technology Wuhan Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202011410416.2A priority Critical patent/CN112434640B/zh
Publication of CN112434640A publication Critical patent/CN112434640A/zh
Application granted granted Critical
Publication of CN112434640B publication Critical patent/CN112434640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本公开是关于一种确定文档图像的旋转角度方法、装置及存储介质。确定文档图像的旋转角度方法包括:对文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像。确定多个文本行图像的角度。基于文本行图像多个文本行图像的角度,确定文档图像的基准角度。基于基准角度,确定文档图像的旋转角度。通过本公开提供的确定文档图像的旋转角度方法,能够基于将文档图像裁剪后得到的多个文本行图像及各文本行图像对应的角度,确定文档图像的旋转角度,进而有助于消除文档图像中背景的干扰,降低旋转角度确定的复杂度,从而提高旋转角度的确定精度。

Description

确定文档图像的旋转角度方法、装置及存储介质
技术领域
本公开涉及计算机图像处理技术领域,尤其涉及一种确定文档图像的旋转角度方法、装置及存储介质。
背景技术
随着便携式摄影设备技术的飞速发展,人们可以更加便捷地通过终端拍摄得到较高质量的照片,除了用于记录日常生活中的精彩瞬间,还可以通过对文档进行拍摄,以得到其数字化副本,进而通过光学字符识别(Optical Character Recognition,OCR)技术对其中的文字信息进行提取和识别,用于重要信息的记录和分享。然而,在现实生活中,拍摄得到的文档图像都具有一定的旋转角度,当该角度过大时(如90°,180°,270°),文字识别结果会受到较大影响。如果可以对文档图像的旋转角度进行预测,并据此角度对其进行旋转,可以大幅提高OCR文字识别的精度。
相关技术中,确定文档图像的旋转角度主要采用基于积神经网络(ConvolutionNeuralNetwork,CNN)对文档图像的旋转角度进行预测和基于文字结构特征的文档图像旋转角度计算两种方式。采用基于CNN对文档图像的旋转角度进行预测时,需先预测文档图像的象限方向,进而将文档图像旋转到指定角度范围区间后,利用OCR网络对此时图片的旋转角度进行预测。但是该方法针对的主要是文档区域占图像主体部分的情形。然而在现实生活中,拍摄得到的文档图像中文档区域占比可能较小且背景区域可能较为复杂,采用该方式确定文档图像的旋转角度,需要对整个文档图像进行网络推理,耗时长,且预测结果的准确度无法确定。而基于文字结构特征的文档图像旋转角度计算方法,主要依赖于各文本行走向检测以及汉字笔画特征提取的准确性,当文档图像中包含的文本行较多时,算法的时间消耗会线性增长,会影响用户的使用体验。且现实生活中的场景多种多样,极其复杂,采用该方法无法保证在实际应用场景中的准确率,算法鲁棒性较差。
发明内容
为克服相关技术中存在的问题,本公开提供一种确定文档图像的旋转角度方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种确定文档图像的旋转角度方法,包括:对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像。确定所述多个文本行图像的角度,其中,所述文本行图像的角度为所述文本行图像中文本行第一边缘与水平方向之间的夹角。基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度。基于所述基准角度,确定所述文档图像的旋转角度。
在一实施例中,对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像,包括:对所述文档图像中包括的多个文本行分别进行检测得到多个文本检测框,并确定所述多个文本检测框各自所对应的文本行重叠度。对文本行重叠度等于预设重叠度阈值的文本行,采用笔直文本行检测算法进行裁剪,得到文本行图像。对文本行重叠度大于预设重叠度阈值的文本行,采用弯曲文本行检测算法进行裁剪,得到文本行图像。
在另一实施例中,采用弯曲文本行检测算法进行裁剪,得到一个或多个文本行图像,包括:将文本检测框的边缘点集划分为上边缘点集以及下边缘点集。将所述上边缘点集中的边缘点进行曲线拟合得到上边缘曲线,并将所述下边缘点集中的边缘点进行曲线拟合得到下边缘曲线。基于所述上边缘曲线和所述下边缘曲线,确定与所述文本检测框对应的文本行宽度范围内的各个中心点坐标。基于所述宽度范围内对应的各个中心点坐标,确定所述文本检测框的裁剪高度。基于所述宽度范围以及所述裁剪高度,将所述文本检测框根据指定宽度进行裁剪,得到多个矩形图像。将所述多个矩形图像沿水平方向进行拼接,得到文本行图像。
在又一实施例中,所述基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度,包括:基于所述多个文本行图像的角度,对所述多个文本行图像进行聚类,得到聚类后的文本行类别,并确定聚类后各文本行类别中的文本行图像数量。根据聚类后各文本行类别中的文本行图像数量,确定基准类。对所述基准类进行类别判断,得到所述基准类对应的类别,并基于所述基准类对应的类别确定所述文档图像的基准角度。
在又一实施例中,所述根据聚类后各文本行类别中的文本行图像数量,确定基准类,包括:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。若所述第一数量的文本行类别中文本行图像数量之间的差值大于第一数量阈值,则将所述第一数量的文本行类别中文本行图像数量最多的文本类别,确定为基准类。
在又一实施例中,所述确定文档图像的旋转角度方法还包括:若所述第一数量的文本行类别中文本行图像数量之间的差值小于或者等于第一数量阈值,则在所述第一数量的文本行类别中选择文本行图像区域平均面积最大的文本行类别,作为基准类。
在又一实施例中,所述根据聚类后各文本行类别中的文本行图像数量,确定基准类,包括:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。在所述第一数量的文本行类别中,将文本行图像区域平均面积最大的文本行类别,确定为基准类。
在又一实施例中,所述对所述基准类进行类别判断,得到所述基准类对应的类别,包括:获取所述基准类对应的文本行图像中第二数量的文本行图像。确定所述第二数量的文本行图像的类别。基于所述第二数量的文本行图像的类别对所述基准类进行类别判断,得到所述基准类对应的类别。其中,所述文本行图像的类别包括正向横排文本行、倒置横排文本行、正向竖排文本行或倒置竖排文本行。
在又一实施例中,所述确定所述第二数量的文本行图像的类别,包括:将所述基准类中第二数量的文本行图像输入至训练好的文本行图像类别分类模型,得到所述基准类中第二数量的文本行图像的类别。
在又一实施例中,所述基于所述第二数量的文本行图像的类别对所述基准类进行类别判断,得到所述基准类对应的类别,包括:在所述第二数量的文本行图像中,确定各文本行图像的类别以及各类别对应的文本行图像数量。在所述文本行图像数量最多的类别对应的文本行图像数量大于第二数量阈值的情况下,将所述文本行图像数量最多的类别作为所述基准类对应的类别。
在又一实施例中,所述确定文档图像的旋转角度方法,还包括:在所述文本行图像数量最多的类别对应的文本行图像数量小于或等于所述第二数量阈值的情况下,将默认类别作为所述基准类对应的类别。
在又一实施例中,所述基于所述基准角度,确定所述文档图像的旋转角度,包括:根据所述基准类中各文本行图像的角度,确定所述基准类的平均角度。基于所述基准类对应的类别和所述平均角度,确定所述文档图像的旋转角度。
根据本公开实施例的第二方面,提供一种确定文档图像的旋转角度装置,包括:裁剪单元,用于对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像,并确定所述多个文本行图像的角度,其中,所述文本行图像的角度为所述文本行图像中文本行第一边缘与水平方向之间的夹角。筛选单元,用于基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度。确定单元,用于基于所述基准角度,确定所述文档图像的旋转角度。
在一实施例中,所述裁剪单元采用下述方式对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像:对所述文档图像中包括的多个文本行分别进行检测得到多个文本检测框,并确定所述多个文本检测框各自所对应的文本行重叠度。对文本行重叠度等于预设重叠度阈值的文本行,采用笔直文本行检测算法进行裁剪,得到文本行图像。对文本行重叠度大于预设重叠度阈值的文本行,采用弯曲文本行检测算法进行裁剪,得到文本行图像。
在另一实施例中,所述裁剪单元采用下述方式采用弯曲文本行检测算法进行裁剪,得到一个或多个文本行图像:将文本检测框的边缘点集划分为上边缘点集以及下边缘点集。将所述上边缘点集中的边缘点进行曲线拟合得到上边缘曲线,并将所述下边缘点集中的边缘点进行曲线拟合得到下边缘曲线。基于所述上边缘曲线和所述下边缘曲线,确定与所述文本检测框对应的文本行宽度范围内的各个中心点坐标。基于所述宽度范围内对应的各个中心点坐标,确定所述文本检测框的裁剪高度。基于所述宽度范围以及所述裁剪高度,将所述文本检测框根据指定宽度进行裁剪,得到多个矩形图像。将所述多个矩形图像沿水平方向进行拼接,得到文本行图像。
在又一实施例中,所述筛选单元采用下述方式基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度:基于所述多个文本行图像的角度,对所述多个文本行图像进行聚类,得到聚类后的文本行类别,并确定聚类后各文本行类别中的文本行图像数量。根据聚类后各文本行类别中的文本行图像数量,确定基准类。对所述基准类进行类别判断,得到所述基准类对应的类别,并基于所述基准类对应的类别确定所述文档图像的基准角度。
在又一实施例中,所述筛选单元采用下述方式根据聚类后各文本行类别中的文本行图像数量,确定基准类:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。若所述第一数量的文本行类别中文本行图像数量之间的差值大于第一数量阈值,则将所述第一数量的文本行类别中文本行图像数量最多的文本类别,确定为基准类。
在又一实施例中,所述筛选单元还用于:若所述第一数量的文本行类别中文本行图像数量之间的差值小于或者等于第一数量阈值,则在所述第一数量的文本行类别中选择文本行图像区域平均面积最大的文本行类别,作为基准类。
在又一实施例中,所述筛选单元采用下述方式根据聚类后各文本行类别中的文本行图像数量,确定基准类:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。在所述第一数量的文本行类别中,将文本行图像区域平均面积最大的文本行类别,确定为基准类。
在又一实施例中,所述确定单元采用下述方式所述对所述基准类进行类别判断,得到所述基准类对应的类别:获取所述基准类对应的文本行图像中第二数量的文本行图像。确定所述第二数量的文本行图像的类别。基于所述第二数量的文本行图像的类别对所述基准类进行类别判断,得到所述基准类对应的类别。其中,所述文本行图像的类别包括正向横排文本行、倒置横排文本行、正向竖排文本行或倒置竖排文本行。
在又一实施例中,所述确定单元采用下述方式确定所述基准类中第二数量的文本行图像的类别:将所述基准类中第二数量的文本行图像输入至训练好的文本行图像类别分类模型,得到所述基准类中第二数量的文本行图像的类别。
在又一实施例中,所述确定单元采用下述方式基于所述第二数量的文本行图像的类别对所述基准类进行类别判断,得到所述基准类对应的类别:在所述第二数量的文本行图像中,确定各文本行图像的类别以及各类别对应的文本行图像数量。在所述文本行图像数量最多的类别对应的文本行图像数量大于第二数量阈值的情况下,将所述文本行图像数量最多的类别作为所述基准类对应的类别。
在又一实施例中,所述确定单元还用于:在所述文本行图像数量最多的类别对应的文本行图像数量小于或等于所述第二数量阈值的情况下,将默认类别作为所述基准类对应的类别。
在又一实施例中,确定单元采用下述方式基于所述基准角度,确定所述文档图像的旋转角度:根据所述基准类中各文本行图像的角度,确定所述基准类的平均角度。基于所述基准类对应的类别和所述平均角度,确定所述文档图像的旋转角度。
根据本公开实施例的第三方面,提供一种确定文档图像的旋转角度装置,包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行上述任意一种所述的确定文档图像的旋转角度方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其中存储有指令,所述指令被处理器执行时,执行上述任意一种所述的确定文档图像的旋转角度方法。
本公开的实施例提供的技术方案可以包括以下有益效果:通过本公开提供的确定文档图像的旋转角度方法,能够基于将文档图像裁剪后得到的多个文本行图像及各文本行图像对应的角度,确定文档图像的旋转角度,进而有助于消除文档图像中背景的干扰,降低旋转角度确定的复杂度,从而提高旋转角度确定的准确度精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种确定文档图像的旋转角度方法的流程图。
图2是根据一示例性实施例示出的一种文本行图像示意图。
图3是根据一示例性实施例示出的一种文本行图像示意图。
图4是根据一示例性实施例示出的一种裁剪示意图。
图5是根据一示例性实施例示出的另一种确定文档图像的旋转角度方法的流程图。
图6是根据一示例性实施例示出的一种文本行图像示意图。
图7是根据一示例性实施例示出的又一种文本行图像示意图。
图8是根据一示例性实施例示出的又一种文本行图像示意图。
图9是根据一示例性实施例示出的又一种确定文档图像的旋转角度方法的流程图。
图10是根据一示例性实施例示出的一种确定文档图像的旋转角度装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,确定文档图像的旋转角度主要采用基于积神经网络(ConvolutionNeural Network,CNN)对文档图像的旋转角度进行预测和基于文字结构特征的文档图像旋转角度计算两种方式。基于CNN网络对文档图像的旋转角度进行预测时,预先采用基于CNN的分类模型对文档图像的象限方向进行预测,确定该文档图像所在的角度象限。分类模型的类别包括[0,90,180,270]。进而将文档图像旋转至(-45°,45°)之间,通过OCR网络预测此时文档图像的旋转角度。从而基于确定该文档图像所在的角度象限以及此时文档图像的旋转角度,确定文档图像的旋转角度。但采用该种方式进行预测,需要基于整个文档图像进行网络推理,耗时长。且在实际应用中,得到的文档图像的背景可能较为复杂,且文本所占文档图像的区域较小,而在训练神经网络时,无法完全包含所有场景,因此,神经网络的鲁棒性较差。若文档图像中同时包含有大量横排文本行和竖排文本行时,分类模型的精度会急剧下降,严重影响预测文档图像的旋转角度的准确性。
基于文字结构特征的文档图像旋转角度计算方法时,根据文档图像的投影特征和文本行相邻汉字之间的位置关系检测文本行的走向。进而基于文本行的走向以及文本行中各字符的宽高比信息,确定文本行的排版信息,从而基于对汉字笔画特征进行提取,确定当前文档图像是否倒置,完成文档图像旋转角度的计算。但采用该方法,主要依赖于各文本行走向检测以及汉字笔画特征提取的准确性。当计算旋转角度时,需要对文档图像中的所有文本行进行走向检测以及笔划特征的提取,若文档图像中包含的文本行较多时,算法的时间消耗会线性增长,会影响用户的使用体验。且现实生活中的场景多种多样,极其复杂,采用该方法无法保证在实际应用场景中的准确率,算法鲁棒性较差。
有鉴于此,本公开实施例提供一种确定文档图像的旋转角度方法,通过文本行检测,将文档图像进行裁剪,进而得到多个文本行图像以及文本行图像对应的角度,从而基于各文本行图像的角度确定文档图像的旋转角度。使在确定文档图像的旋转角度的过程中,能够避免除文本行以外的背景干扰,进而减少确定旋转角度的信息量,且在确定该文档图像的旋转角度时,可以不受文本行图像的角度限制,从而有助于提升文档图像的旋转角度的确定精度。
图1是根据一示例性实施例示出的一种确定文档图像的旋转角度方法的流程图。如图1所示,确定文档图像的旋转角度方法,包括以下步骤S11至步骤S13。
在步骤S11中,对文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像。
在本公开实施例中,文档图像即为包含文本的图像。为便于确定该文档图像中各个文本行所在的位置,可以将文档图像进行文本行检测,进而基于检测得到多个文本检测框,从而在裁剪该文档图像时,能够根据文本检测框所在的位置将文本行进行裁剪,得到多个文本行图像。根据文本检测框裁剪文档图像,能够消除文档图像中除文本以外的背景干扰,进而降低确定文档图像的旋转角度的复杂度。
在步骤S12中,确定多个文本行图像的角度。
在本公开实施例中,为便于确定文档图像的旋转角度,可以根据各个文本行所对应的倾斜角度确定。在确定多个文本行图像的角度时,可以将文本行图像的第一边缘与水平方向重合,进而文本行图像中的文本行的第一边缘与水平方向之间所形成的夹角,便是该文本行图像的角度。其中,文本行图像的第一边缘可以是文本行图像的多个边缘中相对较长的一边。进而在确定文本行图像的角度时,更具有说服力和准确性。
在一示例中,在裁剪文本行图像时,可以将文本行图像的第一边缘沿水平方向进行裁剪,使文本行图像的第一边缘能够与水平方向重合。进而在确定文本行图像的角度时,便可以根据各文本行图像中的各文本行与文档图像的第一边缘之间形成的夹角进行确定。即,将文本行与对应的文本行图像的第一边缘之间形成的夹角作为该文本行图像的角度。例如:文本行图像中的文本行与文本行图像的第一边缘之间形成的夹角为15°,则该15°便为该文本行图像对应的角度。从而将文档图片进行旋转时,便可以进行针对性的旋转。
在步骤S13中,基于文本行图像多个文本行图像的角度,确定文档图像的基准角度。
在本公开实施例中,基准角度为用于确定文档图像旋转角度的角度。由于文档图像中各个文本行图像对应的角度可能不同,且在旋转文档图像时,需要基于唯一的角度进行旋转。故,为确定文档图像所需要的旋转角度,可以在该文本行图像中的多个文本行图像对应的角度中,确定文档图像的基准角度。从而在旋转文档图像时,能够以该基准角度为参照进行旋转。在一例中,基准角度可以根据相同角度对应的文本行图像的数量确定。在各个文本行图像对应的角度中,若同一角度对应的文本行图像的数量最多,则可以将该角度确定为基准角度。进而后续OCR基于该基准角度旋转后文档图片进行文字识别时,旋转后的文档图像中多数的文本行的倾斜角度能够满足OCR的文字识别要求,从而有助于提升OCR的文字识别准确度。在另一例中,基准角度可以根据角度范围进行确定。根据各个文本行图像对应的角度,确定该文档图像的多个角度范围,进而基于文本行图像数量最多的角度范围确定基准角度。从而有助于当文档图像中各个文本行图像对应的角度均不相同时,采用该角度范围确定的基准角度旋转文档图像,使旋转后的文档图像中多数的文本行的倾斜角度能够趋近于同一方向。
在步骤S14中,基于基准角度,确定文档图像的旋转角度。
在本公开实施例中,根据确定的基准角度,确定该文档图像当前与水平方向的倾斜角度,进而在确定该文档图像的旋转角度时,可以不受文本行图像的角度限制,从而有助于提升文档图像的旋转角度的确定精度。
通过上述实施例,能够基于文本行图像的裁剪,消除文档图像除文本以外干扰,进而在确定文档图像的基准角度时,能够提升文档图像的旋转角度的确定精度。
在一实施例中,文档图像中的文本行的类型可能只存在一种或者存在多种。文本行的类型包括:笔直文本行和弯曲文本行。为保证文本行图像中文本行的完整性,可以在裁剪前先确定当前文本检测框中的文本行的类型,进而根据文本行的类型进行针对性的裁剪。在确定文本行的形状时,可以基于文本行重叠度进行确定。即,通过文本行检测,可以确定各个文本检测框中的文本行区域面积以及文本行对应的最小面积矩形的面积。进而根据文本行区域面积与最小面积矩形的面积之间的比值得到该文本行对应的文本行重叠度。若得到的文本行重叠度等于预设重叠度阈值,则将该文本行重叠度对应的文本行确定为笔直文本行。对其进行裁剪得到文本行图像时,则基于笔直文本行检测算法进行裁剪。若得到的文本行重叠度小于预设重叠度阈值,则将该文本行重叠度对应的文本行确定为弯曲文本行。对其进行裁剪得到文本行图像时,则基于弯曲文本行检测算法进行裁剪。其中,文本行区域面积可以表征为沿文本行边缘得到的文本行区域面积,文本行对应的最小面积矩形的面积可以表征为包含该文本行所有文本的最小面积矩形的面积。例如:如图2所示的文本行图像中的文本行示意图,该文本行为笔直文本行,文本行中的各文本大小和排列方向均相同,故基于文本行边缘得到的文本行区域与文本行对应的最小面积矩形属于同一区域。如图3所示的文本行图像中的文本行示意图,该文本行为弯曲文本行,文本行中的各文本大小、排列方向或者文本大小和排列方向可能存在不同,进而该文本行对应的文本行区域即为1所对应的区域,该文本行对应的最小面积矩形即为2所对应的区域,弯曲文本行的最小面积矩形大于文本行区域。故,可以将预设重叠度阈值设为1,进而基于文本行重叠度进行对比,若文本行重叠度等于1,则该文本行为笔直文本行;文本行重叠度小于1,则该文本行为弯曲文本行。
在另一实施例中,采用笔直文本行裁剪算法对笔直文本行进行裁剪时,可以采用以下方法进行裁剪。通过文本行检测,可以确定文档图像中含有文本行的同时,能够得到各文本检测框的边缘点集。根据当前文本检测框的各个边缘点的坐标,通过计算便可以得到该文本行对应的最小面积矩形。进而确定该最小面积矩形对应的四个角的点坐标以及该最小面积矩形对应的宽和高。从而根据宽和高以及该最小面积矩形对应的四个角的点坐标,便可以确定该文本行经过裁剪后的文本行图像对应的四个角坐标。基于透视变换,得到文本行图像对应的四个角坐标的透视变换矩阵,从而根据该透视变换矩阵,将其映射到文档图像中,对当前文本检测框中的文本行从文档图像中进行裁剪,得到当前文本检测框中文本行对应的文本行图像。例如:通过文本行检测框的边缘点集,能够得到该文本行检测框对应的最小面积矩形,进而得到最小面积矩形对应的四个角点(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)及最小面积矩形的宽width、和高height。从而根据宽和高以及该最小面积矩形对应的四个角的点坐标,得到上述四个角点经过裁剪后的坐标(0,0)、(width,0)、(width,height)、(0,height)。将(0,0)、(width,0)、(width,height)、(0,height)基于透视变换,得到该文本检测框对应的透视变换矩阵M,将M映射到文档图像中,对当前文本检测框中的文本行从文档图像中进行裁剪,得到当前文本检测框中文本行对应的文本行图像。
在又一实施例中,采用弯曲文本行裁剪算法对弯曲文本行进行裁剪时,若采用与笔直文本行裁剪算法进行裁剪,则在裁剪的过程中,会引入大量的非文本行区域,在后续进行OCR文字识别时容易产生较大的影响。进而为避免其他因素的干扰,在裁剪弯曲文本时可以采用以下方法进行裁剪。为便于理解,在进行裁剪说明时,将参照图4所示的裁剪示意图进行描述。通过文本行检测,能够得到各文本检测框的边缘点集。进而将各个文本检测框的边缘点集划分为上边缘点集以及下边缘点集。将上边缘点集中的边缘点进行曲线拟合得到上边缘曲线,将下边缘点集中的边缘点进行曲线拟合得到下边缘曲线,便可以根据上边缘曲线以及下边缘曲线确定该文本行图像中文本行的宽度范围内的各个中心点3的坐标。具体的,基于上边缘点集中的各边缘点与下边缘点集中的各边缘点之间的对应关系,能够得到该文本行的高度范围以及该文本行的宽度。为便于裁剪该文本行,可以根据上边缘点集中的各边缘点与下边缘点集中的各边缘点之间的对应关系,在该文本行的宽度范围内,确定各上边缘点与对应的下边缘点之间的中心点3的坐标,进而在进行裁剪时,能够根据各个中心点的坐标,确定裁剪该文本行得到文本行图像对应的裁剪高度。且为便于获取该文本行对应的最小面积矩形,在进行裁剪时,以各个中心点为中心,在该文本行的宽度范围内,根据指定宽度以及确定的裁剪高度进行裁剪,进而在当前文本行的宽度范围内得到若干个矩形4。基于中心点的水平方向的坐标,将若干个矩形4沿水平方向进行拼接,从而得到该文本检测框中的弯曲文本行对应的矩形的文本行图像。在一例中,指定宽度可以根据文档图像像素进行确定,例如:图像像素可以包括:1像素或者2像素。指定宽度对应的图像像素越小,截取的文本行图像中的干扰信息越少,进而越有助于后续OCR能够准确识别。
以下实施例将对文档图像的基准角度的确定过程进行解释说明。
在一实施例中,为便于区分该文档图像中各文本行图像的类别,将各文本行图像根据其对应的角度进行聚类,进而能够确定该文档图像中涉及的文本行类别以及各文本行类别中的文本行图像数量。在一示例中,将各文本行图像根据其对应的角度进行聚类时,可以采用聚类算法进行聚类,例如:均值漂移(Mean-Shift)聚类,是一种基于密度的非参数聚类算法,可以自动确定最终的类别数目,完成聚类。采用该聚类算法进行聚类,能够将各文本行图像根据其对应的角度属性进行聚类,进而可以使实现各文本行类别的自动划分。例如:在本公开中,文本行图像对应的角度为文本行图像中文本行第一边缘与水平方向之间的夹角。且为便于后续的文字识别,在裁剪时,将各文本行对应的文本行图像的第一边缘与水平方向重合。故,若文档图像是正向放置且旋转角度为0°,且在该文档图像中包括横排文本行和竖排文本行时,则可以确定横排文本行对应的角度为0°,竖排文本行的角度为-90°。通过Mean-Shift聚类时,便可以自动将文本行图像的类别划分为横排文本行和竖排文本行,并将文档图像中的各文本行图像基于的角度进行划分,确定横排文本行和竖排文本行的文本行图像数量。在另一示例中,若文档图像的放置具有一定的角度,进而使各文本行图像对应的角度可以是任意角度值,则在进行聚类时,可以基于指定的角度差范围进行聚类,将各文本行图像对应的角度进行差值比较,将差值小于指定的角度差范围的角度对应的文本行图像聚成一类。其中,角度差范围越小,则聚在同一类的各文本行图像之间对应的角度越接近。
进一步的,根据聚类后的各文本行类别中的文本行图像数量,确定该文档图像的基准类。在一例中,为保障确定的基准角度能够贴近该文档图像真正的倾斜角度。在确定该文档图像的基准类时,可以是根据文本行图像数量最多的文本行类别进行确定。进而基于确定的基准角度确定文档图像的旋转角度时,能够将文档图像中的多数文本校正。在另一例中,在确定该文档图像的基准类时,可以是根据文本行图像数量相对较多,但文本行图像平均面积最大的文本行类别进行确定。进而基于确定的基准角度确定文档图像的旋转角度时,能够将文档图像在视觉上进行校正。得到该文档图像的基准类后,对其类别进行判断,确定该基准类对应的类别,以便确定该文档图像的基准角度。其中,类别可以包括:横排文本行或着竖排文本行。进而针对不同的类别,可以确定不同的基准角度。
在一示例中,文档图像的基准类可以基于各文本行类别中的文本行图像数量进行确定。根据聚类后的文本行类别,能够确定各个文本行类别中的文本行图像数量。将各个文本行类别按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。文本行类别对应的文本行图像数量越多,则表征该文档图像中,文本行图像的文本行类别越统一。其中第一数量中的文本行类别可以表征为文档图像中文本行图像数量相对较多的文本行类别。进而将第一数量的文本行类别中的各文本行图像数量进行差值比较,若差值大于第一数量阈值,则可以表征第一数量的文本行类别中各文本行图像数量之间的数量差距明显,进而可以将第一数量的文本行类别中文本行图像数量最多的文本类别,确定为基准类。从而根据该基准类确定的基准角度旋转文档图像时,便可以将文档图像中多数文本行的倾斜角度校正。
在另一示例中,将第一数量的文本行类别中的各文本行图像数量进行差值比较,若差值小于或者等于第一数量阈值,则表征在第一数量的文本行类别中,各文本行类别对应的文本行图像数量相等或者相近。进而在判断基准类时,便可以基于文本行图像区域平均面积进行确定。基于前文所述,通过文本行检测,能够获取各文本行图像的区域面积。进而根据各文本行图像的区域面积能够得到各文本行类别的区域总面积。将文本行类别的区域总面积与该文本行类别对应的文本行图像数量相除,便可以得到该文本行类别对应的文本行图像区域平均面积,进而便可以确定第一数量的文本行类别中各文本行图像区域平均面积。从而将文本行图像区域平均面积最大的文本行类别选择为基准类。从而根据该基准类确定的基准角度旋转文档图像时,便可以将文档图像中大部分区域的文本行的倾斜角度件校正。
在又一示例中,文档图像的基准类可以基于各文本行类别中的文本行图像数量以及各文本行类别对应的文本行图像区域平均面积所确定。根据聚类后的文本行类别,确定各个文本行类别中的文本行图像数量。并将各个文本行类别按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。其中,第一数量中的文本行类别可以表征为文档图像中文本行图像数量相对较多的文本行类别。分别确定第一数量的文本行类别中各文本行图像区域平均面积。进而在第一数量的文本行类别中,将文本行图像区域平均面积最大的文本行类别选择为基准类。从而根据该基准类确定的基准角度旋转文档图像时,便可以将文档图像中数量较多且所占区域最大的文本行校正。
基于相同的发明构思,本公开还提供另一种确定文档图像的旋转角度方法。
图5是根据一示例性实施例示出的一种确定文档图像的旋转角度方法的流程图。如图5所示,确定文档图像的旋转角度方法,包括以下步骤S21至步骤S26。
在步骤S21中,对文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像。
在步骤S22中,确定多个文本行图像的角度。
在步骤S23中,基于文本行图像多个文本行图像的角度,对多个文本行图像进行聚类,得到聚类后的文本行类别,并确定聚类后各文本行类别中的文本行图像数量。
在步骤S24中,根据聚类后各文本行类别中的文本行图像数量,确定基准类。
在步骤S25中,获取基准类对应的文本行图像中第二数量的文本行图像。
在本公开实施例中,文本行图像的类别包括正向横排文本行、倒置横排文本行、正向竖排文本行或倒置竖排文本行。其中,正向横排文本行可以如图2所示的文本行图像中的文本行,倒置横排文本可以如图6所示的文本行图像中的文本行,正向竖排文本行可以如图7所示的文本行图像中的文本行,倒置竖排文本行可以如图8所示的文本行图像中的文本行。图6至图8示出了本公开的一些示例性文本行图像。在文本行图像进行剪切时,正向横排文本行与倒置横排文本行对应的聚类角度可能相同,或者正向竖排文本或者倒置竖排文本的聚类角度可能相同,或者正向横排文本行、倒置横排文本行、正向竖排文本与倒置竖排文本对应的聚类角度均不相同。进而在基准类中的多个文本行图像中,可能存在多种文本行图像的类别。进而根据基准类中的第二数量的文本行图像的类别,确定该基准类对应的文本行图像类别,以便能够根据该基准类对应的文本行图像类别,确定文档图像需要旋转的旋转角度。其中,第二数量可以是指定数量,也可以是基于基准类中的文本行图像的数量基于指定比例进行随机抽取的数量,在本公开中进行限定。
在步骤S26中,确定第二数量的文本行图像的类别。
在本公开实施例中,第二数量的文本行图像的类别可以是基于传统机器学习算法进行确定,例如,通过贝叶斯分类、决策树或者支持向量机进行确定。第二数量的文本行图像的类别也可以是基于深度学习算法确定的,例如:通过CNN进行确定。
在步骤S27中,基于第二数量的文本行图像的类别对基准类进行类别判断,得到基准类对应的类别。
在本公开实施例中,根据确定的第二数量中各文本行图像的类别,确定各文本行图像的类别是否相同。若第二数量中的各文本行图像对应的文本行图像类别均相同,则基准类中的文本行图像类别为同一文本行图像类别,第二数量的文本行图像对应的文本行图像类别即为基准类对应的类别。若第二数量中的各文本行图相对应的文本行图像类别不同,则基准类中的文本行图像类别为混合文本行图像类别,可以基于不同文本行图像类别对应的文本行图像数量确定基准类对应的类别。
在步骤S28中,基于基准类对应的类别确定文档图像的基准角度。
在步骤S29中,基于基准角度,确定文档图像的旋转角度。
通过上述实施例,根据基准类中各文本行图像的类别,确定文档图像的基准角度,能够使确定的基准角度更贴合该文档图像的实际的倾斜角度。且基于基准类中部分文本行图像确定基准类对应的类别,能够节省计算量,有利于快速确定基准角度。进而节省文档图像的旋转角度的计算时间。
在一实施例中,基准类中第二数量的文本行图像的类别,可以采用训练好的文本行图像类别分类模型进行确定。在该文本行图像分类模型中的文本行图像类别可以包括:正向横排文本行、倒置横排文本行、正向竖排文本行以及倒置竖排文本行,并采用0、1、2、3分别作为各自的类别索引。进而将文本行输入至文本行图像分类模型后,便可以根据文本行图像分类模型输出的类别索引确定该文本行图像对应的文本行图像类别。在一例中,若通过文本行图像类别分类模型未确定出文本行图像对应的文本行图像类别,则可以将该文本行图像对应的文本行图像类别确定为默认类别。
在一示例中,文本行图像类别分类模型,可以采用以轻量级神经网络模型作为主网络的卷积神经网络进行训练。在训练该文本行图像类别分类模型时,预先采集或者利用算法合成的一批文本行图像,并标注其对应的文本行图像类别,作为训练该文本行图像类别分类模型的训练文本行图像集。随机抽取训练文本行图像集中的多个训练文本行图像输入至卷积神经网络中,基于输出的文本行图像类别的分类结果以及训练文本行图像对应标注的文本行图像类别,训练该卷积神经网络,得到训练好的文本行图像类别分类模型。在一例中,训练文本行图像集可以采用用于训练文字识别算法的训练数据,进而提升训练数据的利用率,有助于降低开发成本。
在另一实施例中,基于第二数量的文本行图像类别确定基准类对应的类别时,可以根据第二数量的文本行图像中各类别对应的文本行图像数量进行确定。基于第二数量的文本行图像,分别确定各个文本行图像对应的文本行图像类别,以及各文本行图像类别对应的文本行图像的数量。可以将文本行图像的数量最多的文本行图像类别对应的文本行图像数量与第二数量阈值进行对比,在文本行图像数量最多的类别对应的文本行图像数量大于第二数量阈值的情况下,将文本行图像数量最多的类别作为基准类对应的类别。例如:第二数量为S,0、1、2、3分别代表正向横排文本行、倒置横排文本行、正向竖排文本行以及倒置竖排文本行。基于确定的各文本行图像对应的文本行图像类别,0、1、2、3分别对应的文本行图像数量为S0、S1、S2、S3。确定S0、S1、S2和S3中的最大值(MAX),将其与第二数量阈值进行对比,若MAX(S0、S1、S2、S3)大于第二数量阈值,则基准类对应的类别为MAX(S0、S1、S2、S3)对应的文本行图像类别。在一例中,第二数量阈值可以为指定阈值。
在又一实施例中,在文本行图像数量最多的类别对应的文本行图像数量小于或等于第二数量阈值的情况下,可以将默认类别作为基准类对应的类别。以便确定文本行图像的旋转角度时,能够正常运行。其中,默认类别可以是文本行图像的类别中的任意一种。
在又一实施例中,文档图像的旋转角度可以根据该基准类中各文本行图像角度对应的平均角度以及该基准类对应的类别进行确定。根据基准类中各文本行图像的角度,确定该基准类的平均角度,进而在根据基准角度确定文档图像的旋转角度时,使确定的旋转角度更具有合理性,文档图像中各个文本行均可以进行合适的校正。预设基准类对应的类别与旋转角度确定方式之间的对应关系。进而当确定基准类对应的类别后,能够基于基准类对应的类别与旋转角度确定方式之间的对应关系,能够快速确定文档图像的旋转角度。在一示例中,预设基准类对应的类别与旋转角度确定方式之间的对应关系可以包括:若基准类对应的类别为正向横排文本行,则对应的旋转角度确定方式为Angle=A,其中,A为基准类的平均角度。若基准类对应的类别为倒置横排文本行,则对应的旋转角度确定方式为Angle=A+180。若基准类对应的类别为正向竖排文本行,则对应的旋转角度确定方式为Angle=A-90。若基准类对应的类别为倒置竖排文本行,则对应的旋转角度确定方式为Angle=A+180-90。进而当确定基准类对应的类别和基准类的平均角度时,便可以根据其对应的旋转角度确定方式,快速确定文档图像的旋转角度。
在又一实施例中,基准类中的各文本行图像的角度多数相同,存在极个别异常数据时,则在确定文档图像的旋转角度时,便可以基于基准类对应的类别以及基准类中多数相同的文本行图像的角度进行确定。进而避免误差,提高校正准确度。
在一实施场景中,确定文档图像的旋转角度的方法可以如图9所示。
图9是根据一示例性实施例示出的一种确定文档图像的旋转角度方法的流程图,包括以下步骤S31至步骤S35。
在步骤S31中,通过文本检测框,将文档图像中的文本行进行裁剪,得到多个文本行图像以及各文本行图像对应的角度。
在步骤S32中,将得到的各文本行图像对应的角度通过Mean-Shift聚类,确定文档图像的多个文本行类别。
在步骤S33中,根据聚类后各文本行类别中的文本行图像数量,确定基准类。
在步骤S34中,确定基准类对应的类别以及基准类的平均角度。
在步骤S35中,基于基准类对应的类别、基准类的平均角度以及基准类对应的类别与旋转角度确定方式之间的对应关系,确定文档图像的旋转角度。
基于相同的构思,本公开实施例还提供一种确定文档图像的旋转角度装置。
可以理解的是,本公开实施例提供的确定文档图像的旋转角度装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
图10是根据一示例性实施例示出的一种确定文档图像的旋转角度装置框图。参照图10,该确定文档图像的旋转角度装置100包括裁剪单元101,筛选单元102和确定单元103。
裁剪单元101,用于对文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像,并确定多个文本行图像的角度,其中,文本行图像的角度为文本行图像中文本行第一边缘与水平方向之间的夹角。
筛选单元102,用于基于文本行图像多个文本行图像的角度,确定文档图像的基准角度。
确定单元103,用于基于基准角度,确定文档图像的旋转角度。
在一实施例中,裁剪单元101采用下述方式对文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像:对文档图像中包括的多个文本行分别进行检测得到多个文本检测框,并确定多个文本检测框各自所对应的文本行重叠度。对文本行重叠度等于预设重叠度阈值的文本行,采用笔直文本行检测算法进行裁剪,得到文本行图像。对文本行重叠度大于预设重叠度阈值的文本行,采用弯曲文本行检测算法进行裁剪,得到文本行图像。
在另一实施例中,裁剪单元101采用下述方式采用弯曲文本行检测算法进行裁剪,得到一个或多个文本行图像:将文本检测框的边缘点集划分为上边缘点集以及下边缘点集。将上边缘点集中的边缘点进行曲线拟合得到上边缘曲线,并将下边缘点集中的边缘点进行曲线拟合得到下边缘曲线。基于上边缘曲线和下边缘曲线,确定与文本检测框对应的文本行宽度范围内的各个中心点坐标。基于宽度范围内对应的各个中心点坐标,确定文本检测框的裁剪高度。基于宽度范围以及裁剪高度,将文本检测框根据指定宽度进行裁剪,得到多个矩形图像。将多个矩形图像沿水平方向进行拼接,得到文本行图像。
在又一实施例中,筛选单元102采用下述方式基于文本行图像多个文本行图像的角度,确定文档图像的基准角度:基于多个文本行图像的角度,对多个文本行图像进行聚类,得到聚类后的文本行类别,并确定聚类后各文本行类别中的文本行图像数量。根据聚类后各文本行类别中的文本行图像数量,确定基准类。对基准类进行类别判断,得到基准类对应的类别,并基于基准类对应的类别确定文档图像的基准角度。
在又一实施例中,筛选单元102采用下述方式根据聚类后各文本行类别中的文本行图像数量,确定基准类:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。若第一数量的文本行类别中文本行图像数量之间的差值大于第一数量阈值,则将第一数量的文本行类别中文本行图像数量最多的文本类别,确定为基准类。
在又一实施例中,筛选单元102还用于:若第一数量的文本行类别中文本行图像数量之间的差值小于或者等于第一数量阈值,则在第一数量的文本行类别中选择文本行图像区域平均面积最大的文本行类别,作为基准类。
在又一实施例中,筛选单元102采用下述方式根据聚类后各文本行类别中的文本行图像数量,确定基准类:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。在第一数量的文本行类别中,将文本行图像区域平均面积最大的文本行类别,确定为基准类。
在又一实施例中,确定单元103采用下述方式对基准类进行类别判断,得到基准类对应的类别:获取基准类对应的文本行图像中第二数量的文本行图像。确定第二数量的文本行图像的类别。基于第二数量的文本行图像的类别对基准类进行类别判断,得到基准类对应的类别。其中,文本行图像的类别包括正向横排文本行、倒置横排文本行、正向竖排文本行或倒置竖排文本行。
在又一实施例中,确定单元103采用下述方式确定基准类中第二数量的文本行图像的类别:将基准类中第二数量的文本行图像输入至训练好的文本行图像类别分类模型,得到基准类中第二数量的文本行图像的类别。
在又一实施例中,确定单元103采用下述方式基于第二数量的文本行图像的类别对基准类进行类别判断,得到基准类对应的类别:在第二数量的文本行图像中,确定各文本行图像的类别以及各类别对应的文本行图像数量。在文本行图像数量最多的类别对应的文本行图像数量大于第二数量阈值的情况下,将文本行图像数量最多的类别作为基准类对应的类别。
在又一实施例中,确定单元103还用于:在文本行图像数量最多的类别对应的文本行图像数量小于或等于第二数量阈值的情况下,将默认类别作为基准类对应的类别。
在又一实施例中,确定单元103采用下述方式基于基准角度,确定文档图像的旋转角度:根据基准类中各文本行图像的角度,确定基准类的平均角度。基于基准类对应的类别和平均角度,确定文档图像的旋转角度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
进一步的,在示例性实施例中,确定文档图像的旋转角度装置可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。例如,确定文档图像的旋转角度装置包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行上述任意一种实施例提供的确定文档图像的旋转角度方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由确定文档图像的旋转角度装置的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
进一步可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种确定文档图像的旋转角度方法,其特征在于,所述确定文档图像的旋转角度方法包括:
对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像;
确定所述多个文本行图像的角度,其中,所述文本行图像的角度为所述文本行图像中文本行第一边缘与水平方向之间的夹角;
基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度;
基于所述基准角度,确定所述文档图像的旋转角度;
其中,所述基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度,包括:
基于所述多个文本行图像的角度,对所述多个文本行图像进行聚类,得到聚类后的文本行类别,并确定聚类后各文本行类别中的文本行图像数量;
根据聚类后各文本行类别中的文本行图像数量,确定基准类;
对所述基准类进行类别判断,得到所述基准类对应的类别,并基于所述基准类对应的类别确定所述文档图像的基准角度;
其中,所述对所述基准类进行类别判断,得到所述基准类对应的类别,包括:
获取所述基准类对应的文本行图像中第二数量的文本行图像;
确定所述第二数量的文本行图像的类别;
基于所述第二数量的文本行图像的类别对所述基准类进行类别判断,得到所述基准类对应的类别;其中,所述文本行图像的类别包括正向横排文本行、倒置横排文本行、正向竖排文本行或倒置竖排文本行。
2.根据权利要求1所述的确定文档图像的旋转角度方法,其特征在于,所述对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像,包括:
对所述文档图像中包括的多个文本行分别进行检测得到多个文本检测框,并确定所述多个文本检测框各自所对应的文本行重叠度;
对文本行重叠度等于预设重叠度阈值的文本行,采用笔直文本行检测算法进行裁剪,得到文本行图像;
对文本行重叠度大于预设重叠度阈值的文本行,采用弯曲文本行检测算法进行裁剪,得到文本行图像。
3.根据权利要求2所述的确定文档图像的旋转角度方法,其特征在于,所述采用弯曲文本行检测算法进行裁剪,得到一个或多个文本行图像,包括:
将文本检测框的边缘点集划分为上边缘点集以及下边缘点集;
将所述上边缘点集中的边缘点进行曲线拟合得到上边缘曲线,并将所述下边缘点集中的边缘点进行曲线拟合得到下边缘曲线;
基于所述上边缘曲线和所述下边缘曲线,确定与所述文本检测框对应的文本行宽度范围内的各个中心点坐标;
基于所述宽度范围内对应的各个中心点坐标,确定所述文本检测框的裁剪高度;
基于所述宽度范围以及所述裁剪高度,将所述文本检测框根据指定宽度进行裁剪,得到多个矩形图像;
将所述多个矩形图像沿水平方向进行拼接,得到文本行图像。
4.根据权利要求1所述的确定文档图像的旋转角度方法,其特征在于,所述根据聚类后各文本行类别中的文本行图像数量,确定基准类,包括:
在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别;
若所述第一数量的文本行类别中文本行图像数量之间的差值大于第一数量阈值,则将所述第一数量的文本行类别中文本行图像数量最多的文本类别,确定为基准类。
5.根据权利要求4所述的确定文档图像的旋转角度方法,其特征在于,所述确定文档图像的旋转角度方法还包括:
若所述第一数量的文本行类别中文本行图像数量之间的差值小于或者等于第一数量阈值,则在所述第一数量的文本行类别中选择文本行图像区域平均面积最大的文本行类别,作为基准类。
6.根据权利要求1所述的确定文档图像的旋转角度方法,其特征在于,所述根据聚类后各文本行类别中的文本行图像数量,确定基准类,包括:
在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别;
在所述第一数量的文本行类别中,将文本行图像区域平均面积最大的文本行类别,确定为基准类。
7.根据权利要求1所述的确定文档图像的旋转角度方法,其特征在于,所述确定所述第二数量的文本行图像的类别,包括:
将所述基准类中第二数量的文本行图像输入至训练好的文本行图像类别分类模型,得到所述基准类中第二数量的文本行图像的类别。
8.根据权利要求7所述的确定文档图像的旋转角度方法,其特征在于,所述基于所述第二数量的文本行图像的类别对所述基准类进行类别判断,得到所述基准类对应的类别,包括:
在所述第二数量的文本行图像中,确定各文本行图像的类别以及各类别对应的文本行图像数量;
在所述文本行图像数量最多的类别对应的文本行图像数量大于第二数量阈值的情况下,将所述文本行图像数量最多的类别作为所述基准类对应的类别。
9.根据权利要求8所述的确定文档图像的旋转角度方法,其特征在于,所述确定文档图像的旋转角度方法,还包括:
在所述文本行图像数量最多的类别对应的文本行图像数量小于或等于所述第二数量阈值的情况下,将默认类别作为所述基准类对应的类别。
10.根据权利要求1所述的确定文档图像的旋转角度方法,其特征在于,所述基于所述基准角度,确定所述文档图像的旋转角度,包括:
根据所述基准类中各文本行图像的角度,确定所述基准类的平均角度;
基于所述基准类对应的类别和所述平均角度,确定所述文档图像的旋转角度。
11.一种确定文档图像的旋转角度装置,其特征在于,所述确定文档图像的旋转角度装置包括:
裁剪单元,用于对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像,并确定所述多个文本行图像的角度,其中,所述文本行图像的角度为所述文本行图像中文本行第一边缘与水平方向之间的夹角;
筛选单元,用于基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度;
确定单元,用于基于所述基准角度,确定所述文档图像的旋转角度;
所述筛选单元,用于采用如下方式基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度:
基于所述多个文本行图像的角度,对所述多个文本行图像进行聚类,得到聚类后的文本行类别,并确定聚类后各文本行类别中的文本行图像数量;
根据聚类后各文本行类别中的文本行图像数量,确定基准类;
对所述基准类进行类别判断,得到所述基准类对应的类别,并基于所述基准类对应的类别确定所述文档图像的基准角度;
所述筛选单元,用于采用如下方式对所述基准类进行类别判断,得到所述基准类对应的类别:
获取所述基准类对应的文本行图像中第二数量的文本行图像;
确定所述第二数量的文本行图像的类别;
基于所述第二数量的文本行图像的类别对所述基准类进行类别判断,得到所述基准类对应的类别;其中,所述文本行图像的类别包括正向横排文本行、倒置横排文本行、正向竖排文本行或倒置竖排文本行。
12.根据权利要求11所述的确定文档图像的旋转角度装置,其特征在于,所述筛选单元采用下述方式基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度:
基于所述多个文本行图像的角度,对所述多个文本行图像进行聚类,得到聚类后的文本行类别,并确定聚类后各文本行类别中的文本行图像数量;
根据聚类后各文本行类别中的文本行图像数量,确定基准类;
对所述基准类进行类别判断,得到所述基准类对应的类别,并基于所述基准类对应的类别确定所述文档图像的基准角度。
13.一种确定文档图像的旋转角度装置,其特征在于,所述确定文档图像的旋转角度装置包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行如权利要求1-10中任意一项所述的确定文档图像的旋转角度方法。
14.一种计算机可读存储介质,其中存储有指令,所述指令被处理器执行时,执行如权利要求1-10中任意一项所述的确定文档图像的旋转角度方法。
CN202011410416.2A 2020-12-04 2020-12-04 确定文档图像的旋转角度方法、装置及存储介质 Active CN112434640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011410416.2A CN112434640B (zh) 2020-12-04 2020-12-04 确定文档图像的旋转角度方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011410416.2A CN112434640B (zh) 2020-12-04 2020-12-04 确定文档图像的旋转角度方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112434640A CN112434640A (zh) 2021-03-02
CN112434640B true CN112434640B (zh) 2024-04-30

Family

ID=74691915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011410416.2A Active CN112434640B (zh) 2020-12-04 2020-12-04 确定文档图像的旋转角度方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112434640B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359889B (zh) * 2022-03-14 2022-06-21 北京智源人工智能研究院 一种长文本资料的文本识别方法
CN115830613A (zh) * 2023-01-09 2023-03-21 广州佰锐网络科技有限公司 文档智能采集分拣方法、调取方法、存储介质和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211048A (zh) * 2019-05-28 2019-09-06 湖北华中电力科技开发有限责任公司 一种基于卷积神经网络的复杂档案图像倾斜矫正方法
CN110458167A (zh) * 2019-08-20 2019-11-15 浙江工业大学 一种金属件表面弯曲文本行矫正方法
CN111353961A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种文档曲面校正方法及装置
CN111553344A (zh) * 2020-04-17 2020-08-18 携程旅游信息技术(上海)有限公司 文本图像的倾斜校正方法、***、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8787695B2 (en) * 2012-11-20 2014-07-22 Eastman Kodak Company Image rectification using text line tracks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211048A (zh) * 2019-05-28 2019-09-06 湖北华中电力科技开发有限责任公司 一种基于卷积神经网络的复杂档案图像倾斜矫正方法
CN110458167A (zh) * 2019-08-20 2019-11-15 浙江工业大学 一种金属件表面弯曲文本行矫正方法
CN111353961A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种文档曲面校正方法及装置
CN111553344A (zh) * 2020-04-17 2020-08-18 携程旅游信息技术(上海)有限公司 文本图像的倾斜校正方法、***、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种快速的文档图像倾斜角检测算法;吴军;侯德文;刘江;;电子技术与软件工程(02);全文 *

Also Published As

Publication number Publication date
CN112434640A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
US11164027B2 (en) Deep learning based license plate identification method, device, equipment, and storage medium
CN110569830B (zh) 多语言文本识别方法、装置、计算机设备及存储介质
CN107609549B (zh) 一种自然场景下证件图像的文本检测方法
US8942484B2 (en) Text detection using image regions
WO2017020723A1 (zh) 一种字符分割方法、装置及电子设备
US9576210B1 (en) Sharpness-based frame selection for OCR
CN108805116B (zh) 图像文本检测方法及其***
WO2018233055A1 (zh) 保单信息录入的方法、装置、计算机设备及存储介质
CN110619333B (zh) 一种文本行分割方法、文本行分割装置及电子设备
US8325998B2 (en) Multidirectional face detection method
CN113486828B (zh) 图像处理方法、装置、设备和存储介质
CN112434640B (zh) 确定文档图像的旋转角度方法、装置及存储介质
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
CN111507957B (zh) 身份证图片转换方法、装置、计算机设备及存储介质
CN109738450B (zh) 笔记本键盘的检测方法和装置
CN113850238B (zh) 文档检测方法、装置、电子设备及存储介质
CN111368632A (zh) 一种签名识别方法及设备
CN110796663A (zh) 图片剪裁方法、装置、设备和存储介质
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
CN112949649B (zh) 一种文本图像的识别方法、装置及计算设备
CN113887375A (zh) 一种文本识别方法、装置、设备及存储介质
CN113743318A (zh) 基于行列分割的表格结构识别方法、存储介质和电子装置
US11367296B2 (en) Layout analysis
CN113947619A (zh) 结合目标检测的半人工式初始跟踪框确定及跟踪方法及***
CN111881732B (zh) 一种基于svm的人脸质量评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant