CN112257710A - 一种带文字平面的图片倾斜度检测方法及装置 - Google Patents
一种带文字平面的图片倾斜度检测方法及装置 Download PDFInfo
- Publication number
- CN112257710A CN112257710A CN202011156715.8A CN202011156715A CN112257710A CN 112257710 A CN112257710 A CN 112257710A CN 202011156715 A CN202011156715 A CN 202011156715A CN 112257710 A CN112257710 A CN 112257710A
- Authority
- CN
- China
- Prior art keywords
- picture
- value
- clustering
- slope
- straight line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000012935 Averaging Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种带文字平面的图片倾斜度检测方法及装置,所述方法包括:文本框检测模块,用于获取待检测图片中各文本行所对应的文本框,以所述文本行所在的文本框的四个顶点进行表示;直线拟合模块,用于对每个文本框的四个顶点进行直线拟合;聚类模块,用于对拟合后的直线的斜率进行聚类;中心斜率值获取模块,用于对聚类后的各类别中的直线斜率求平均值,获得多个中心斜率值;判定模块,用于根据多个所述中心斜率值与阈值的比较结果,判定所述待检测图片是否倾斜。本申请通过多条直线斜率的聚类算法来进行图片倾斜度的判定,一方面能够结合聚类算法增强倾斜度识别的鲁棒性,另一方面能够区分平面倾斜及纵深倾斜,获得更为全面的检测结果。
Description
技术领域
本申请属于数据处理技术领域,特别涉及一种带文字平面的图片倾斜度检测方法及装置。
背景技术
生鲜电商企业希望可以通过销售拍摄的商户菜单照片,自动识别菜单上的文字。但由于拍摄的图片质量角度不一,对后续的文字识别算法造成了很大的挑战,同时也导致了一些人力的浪费。因此希望通过一些预判断算法,在销售拍摄照片时就可以实时地反馈图片是否合格,在进行文字识别前就判断该图片是否适合用于文字识别的算法。若判断不适合,则可以要求当场重拍,避免不必要的人力浪费。同时也可以提高后续的文字识别率,减少人工识别的成本。
在所有的图片质量问题中,其中一个最大的问题就是拍摄角度过于倾斜,导致文字严重变形,或者远端的文字过小,难以识别。目前针对单张图片判断倾斜度的方法大都通过Hough变换等算法识别图片中的所有直线,再通过直线的倾斜度判断图片的倾斜度,或是利用文字的行间空白条来检测倾斜度,但这些方法局限于某种特定应用场景,例如票据、表单等带表格的图片,背景要求单一清晰。并且只能识别平行于图片平面的倾斜,不能识别垂直于图片的深度方向的倾斜。
发明内容
为了解决上述技术问题至少之一,本申请提供了一种能自动判断拍摄的自然场景下的菜单图片是否过于倾斜的方法及装置,利用聚类等算法,使该判别方法能够利用更高层次的统计信息,使识别更鲁棒。该方法并不局限于菜单图片,同时适用于各种自然场景下带文字平面的图片的倾斜度判断,如广告牌等。
本申请第一方面提供了一种带文字平面的图片倾斜度检测方法,包括:获取待检测图片中各文本行所对应的文本框,以所述文本行所在的文本框的四个顶点进行表示;对每个文本框的四个顶点进行直线拟合;对拟合后的直线的斜率进行聚类;对聚类后的各类别中的直线斜率求平均值,获得多个中心斜率值;根据多个所述中心斜率值与阈值的比较结果,判定所述待检测图片是否倾斜。
优选的是,对拟合后的直线的斜率进行聚类之前,进一步包括:设定第一阈值,过滤掉斜率超过所述第一阈值的直线,其中,所述第一阈值选取自4~6中的任意值。
优选的是,对拟合后的直线的斜率进行聚类包括:设定数量不少于两个的聚类类别,并在每个类别中给定一个初始中心值;以各直线斜率与各所述初始中心值的欧式距离将所有直线斜率进行初始聚类;对初始聚类后的各聚类类别,重新计算其内的直线斜率的平均值,并作为新的中心值,对所有直线斜率重新进行聚类,多次迭代直至收敛。
优选的是,判定所述待检测图片是否倾斜包括:设定第二阈值,对聚类后涵盖直线斜率最多的一个类别中的直线斜率所求的中心斜率值大于所述第一阈值时,判定所述待检测图片为倾斜图片,其中,所述第二阈值选取自0.8~1.2中的任意值。
优选的是,判定所述待检测图片是否倾斜包括:设定第三阈值,选取聚类后所求的多个中心斜率值中的最大值与最小值,并求差值,若所述差值大于所述第三阈值,则判定所述待检测图片为纵深倾斜图片,其中,所述第三阈值选取自0.2~0.3中的任意值。
本申请第二方面提供了一种与上述方法对应的带文字平面的图片倾斜度检测装置,包括:文本框检测模块,用于获取待检测图片中各文本行所对应的文本框,以所述文本行所在的文本框的四个顶点进行表示;直线拟合模块,用于对每个文本框的四个顶点进行直线拟合;聚类模块,用于对拟合后的直线的斜率进行聚类;中心斜率值获取模块,用于对聚类后的各类别中的直线斜率求平均值,获得多个中心斜率值;判定模块,用于根据多个所述中心斜率值与阈值的比较结果,判定所述待检测图片是否倾斜。
优选的是,还包括过滤模块,用于在进行聚类之前,通过设定的第一阈值对拟合后的斜率超过所述第一阈值的直线进行过滤,其中,所述第一阈值选取自4~6中的任意值。
优选的是,所述聚类模块包括:聚类参数设定单元,用于设定数量不少于两个的聚类类别,并在每个类别中给定一个初始中心值;初始聚类单元,用于以各直线斜率与各所述初始中心值的欧式距离将所有直线斜率进行初始聚类;迭代单元,用于对初始聚类后的各聚类类别,重新计算其内的直线斜率的平均值,并作为新的中心值,对所有直线斜率重新进行聚类,多次迭代直至收敛。
优选的是,所述判定模块包括:第一判定单元,用于设定第二阈值,对聚类后涵盖直线斜率最多的一个类别中的直线斜率所求的中心斜率值大于所述第一阈值时,判定所述待检测图片为倾斜图片,其中,所述第二阈值选取自0.8~1.2中的任意值。
优选的是,所述判定模块包括:第二判定单元,用于设定第三阈值,选取聚类后所求的多个中心斜率值中的最大值与最小值,并求差值,若所述差值大于所述第三阈值,则判定所述待检测图片为纵深倾斜图片,其中,所述第三阈值选取自0.2~0.3中的任意值。
本申请通过多条直线斜率的聚类算法来进行图片倾斜度的判定,一方面能够结合聚类算法增强倾斜度识别的鲁棒性,另一方面能够区分平面倾斜及纵深倾斜,获得更为全面的检测结果。
附图说明
图1是本申请带文字平面的图片倾斜度检测方法的一优选实施例的流程图。
图2时本申请图1所示实施例的文本框获取示意图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。
本申请第一方面提供了一种带文字平面的图片倾斜度检测方法,如图1所示,主要包括:
步骤S1、获取待检测图片中各文本行所对应的文本框,以所述文本行所在的文本框的四个顶点进行表示。
步骤S2、对每个文本框的四个顶点进行直线拟合。
步骤S3、对拟合后的直线的斜率进行聚类。
步骤S4、对聚类后的各类别中的直线斜率求平均值,获得多个中心斜率值。
步骤S5、根据多个所述中心斜率值与阈值的比较结果,判定所述待检测图片是否倾斜。
在步骤S1中,优选采用深度学习对文本框进行识别。当前机器视觉领域有很多检测文本框位置的算法,本发明并不局限于使用哪种算法得到文本框,例如采用EAST网络进行检测,EAST是一种基于深度学习的文本检测网络。输入为单张图片,输出为一系列多边形坐标,每个多边形对应图片中的一个文本行。EAST是一个全卷积网络,主要分三部分:特征提取层、特征融合层以及输出层。特征提取层可用任意的Backbone网络,论文中用的是PVANet。特征融合层将临近的两层通过上采样后拼接起来,以此来获得更丰富的语义和位置信息。
输出层分为三部分:score map,RBOX以及QUAD。其中score map给出每个像素点属于文本区域的概率。RBOX对每个像素输出5个值,分表表示该像素到所在矩形的顶部、右侧、底部、左侧边界的4个距离,以及矩形的旋转角度。QUAD对每个像素输出8个值,为该像素到四边形四个角顶点的坐标偏移。
最后对得到的所有文本框进行NMS,得到最终结果,如图2所示,应当理解的是,在图2中,通过机器学习进行文本框检测,一般是基于文字间距为原理进行检测的,这样每一行字如果比较紧凑,一般识别为一个文本框,一行字中如果被空格隔开,则通常会识别为多个文本框。
通常来说,所形成的文本框里面包含多个字,形成长方形文本框,但是基于检测算法的其他因素,有时紧凑的文字行也被分割成多个文本框,即有的文本框里面包含一个字,形成正方形文本框。但无论哪种情况,所形成的文本框基本为矩形,具有四个顶点,因此,步骤S1中采用四个顶点表示所述文本框。
在步骤S2中,对每个文本框进行直线拟合,例如通过最小二乘法对这四个点拟合直线,计算得到所有直线的斜率。
步骤S3中,对上述计算的直线斜率进行聚类。
在一些可选实施方式中,在进行聚类之前,进一步包括:设定第一阈值,过滤掉斜率超过所述第一阈值的直线,其中,所述第一阈值选取自4~6中的任意值。
该实施例的目的在于去掉所有斜率大于阈值的直线,此处阈值根据经验例如设为5。过滤斜率是因为目前的文字检测算法对竖排的文字有一定的局限,错检率较高。且有些单个字会被识别为文本行,拟合直线时会被拟合成竖向的直线,影响算法效果。因此通过阈值过滤这两种异常值。
在一些可选实施方式中,步骤S3进一步包括:
步骤S31、设定数量不少于两个的聚类类别,并在每个类别中给定一个初始中心值。
步骤S32、以各直线斜率与各所述初始中心值的欧式距离将所有直线斜率进行初始聚类。
步骤S33、对初始聚类后的各聚类类别,重新计算其内的直线斜率的平均值,并作为新的中心值,对所有直线斜率重新进行聚类,多次迭代直至收敛。
本申请的实施具有以下有益效果:
(1)通过算法直接判断倾斜度,统一标准,避免了拍摄图片的质量不一等问题。
(2)可以实时地对拍摄图片作出判断,以便拍摄人员决定是否需要重拍照片。
(3)可以应用于自然场景。对于背景复杂的图片,通过识别直线等的算法误判率相当高,因为背景中的直线都会被当作表格线计算。但本发明避免了这种误判,不会受背景中的线条或图案影响。
(4)可以判断垂直于图片的深度方向的倾斜。现有的判断方法都局限于判断平行于图像平面的旋转造成的倾斜。但在菜单图片中,很多图片由于拍摄角度过大,造成菜单在垂直于图片方向有很大倾斜,如菜单一侧更靠近相机,字体较清晰,另一侧则远离相机,字体很小且模糊。
可以理解的是,本申请聚类后可以使得到斜率更具统计学意义,使结果更鲁棒。这里采用kmeans算法,设定类别数量n为直线数除以5。即若过滤后图中直线数为20,则设定类别数n为4。kmeans通过随机设定n个中心值,计算欧式距离将所有直线分配到n个类中。然后再根据每个类中的直线斜率计算新的中心值,再重新分配所有直线。以此迭代多次直到收敛。最终所有直线会被分配到其相应的类别中,每个类别有一个中心值,称为中心斜率。中心斜率通过计算此类中的所有直线的斜率平均值得到。
步骤S4实际上是获得步骤S3迭代收敛后的各类别的中心斜率。步骤S5是根据这些斜率来预判图片的倾斜程度。
在一些可选实施方式中,判定所述待检测图片是否倾斜包括:
设定第二阈值,对聚类后涵盖直线斜率最多的一个类别中的直线斜率所求的中心斜率值大于所述第一阈值时,判定所述待检测图片为倾斜图片,其中,所述第二阈值选取自0.8~1.2中的任意值。
该实施例主要是判定图片是否在平面上发生倾斜,通过设定一个第二阈值,当聚类后的直线斜率超过第二阈值,则认定为图片在平面上倾斜,这里优先选取聚类后涵盖直线斜率最多的一个类别中的直线斜率所求的中心斜率值作为比较标准,据此认为判定时的覆盖率最为广泛,结果更为精准。备选实施方式中,也可以采用整个非聚类之前的所有直线斜率的平均值来与阈值进行判定比较。
本实施例中,第二阈值一般选取为1,即表示当聚类后涵盖直线斜率最多的一个类别中的直线斜率所求的中心斜率值c大于1时,则可以判断文字平面在平行于图片方向有倾斜。
可以理解的是,本申请的另一个目的在于通过图片倾斜度判定来作为文字识别算法的图片预筛处理,以指导前端获取质量更高的拍摄照片,因此第二阈值的取值可以根据后续文字识别步骤来定,即在文字识别步骤,图片倾斜程度超过多少会导致无法识别文字,这个数值可以统计出来,进而作为第二阈值的选取标准。
除了识别待检测图片在平面的倾斜之外,还可以通过以下步骤来判定所述待检测图片是否存在纵深方向的倾斜。即在一些可选实施方式中,判定所述待检测图片是否倾斜包括:
设定第三阈值,选取聚类后所求的多个中心斜率值中的最大值与最小值,并求差值,若所述差值大于所述第三阈值,则判定所述待检测图片为纵深倾斜图片,其中,所述第三阈值选取自0.2~0.3中的任意值。
该实施例中,当平面在垂直于画面方向的深度方向有所倾斜时,平行线会有相交于消失点(vanishing point)的趋势。即在真实世界中斜率一致的线,当在深度方向有倾斜时,其斜率会向不同方向产生变化。因此,通过中心斜率的最大差值可以判断平面是否在垂直于画面方向有倾斜,即若所有类别的中心斜率值的最大值与最小值差值大于第三阈值时,则判断为倾斜图片。
如上所述,考虑到本发明的作为文字识别算法的图片预筛处理的目的,这里仍然可以根据文字识别步骤的识别率统计出合适的第三阈值,通常情况下,第三阈值可以选取为0.25。
可以理解的时,单个文字行检测具有偶然性,容易造成误判,比如只有一条文字倾斜,倾斜原因可能是艺术字效果或者其他原因,并不是图片倾斜导致的,而多个文字行均倾斜来表示图片倾斜的方式会更稳定,精度会更高,避免偶然性。本申请通过聚类算法对多个文本框的拟合直线的斜率进行处理,提高了图片倾斜度检测的准确性,同时能够区分平面倾斜及纵深倾斜,获得更为全面的检测结果。
本申请第二方面,提供了一种与上述方法对应的带文字平面的图片倾斜度检测装置,主要包括:
文本框检测模块,用于获取待检测图片中各文本行所对应的文本框,以所述文本行所在的文本框的四个顶点进行表示;
直线拟合模块,用于对每个文本框的四个顶点进行直线拟合;
聚类模块,用于对拟合后的直线的斜率进行聚类;
中心斜率值获取模块,用于对聚类后的各类别中的直线斜率求平均值,获得多个中心斜率值;
判定模块,用于根据多个所述中心斜率值与阈值的比较结果,判定所述待检测图片是否倾斜。
在一些可选实施方式中,还包括过滤模块,用于在进行聚类之前,通过设定的第一阈值对拟合后的斜率超过所述第一阈值的直线进行过滤,其中,所述第一阈值选取自4~6中的任意值。
在一些可选实施方式中,所述聚类模块包括:
聚类参数设定单元,用于设定数量不少于两个的聚类类别,并在每个类别中给定一个初始中心值;
初始聚类单元,用于以各直线斜率与各所述初始中心值的欧式距离将所有直线斜率进行初始聚类;
迭代单元,用于对初始聚类后的各聚类类别,重新计算其内的直线斜率的平均值,并作为新的中心值,对所有直线斜率重新进行聚类,多次迭代直至收敛。
在一些可选实施方式中,所述判定模块包括:
第一判定单元,用于设定第二阈值,对聚类后涵盖直线斜率最多的一个类别中的直线斜率所求的中心斜率值大于所述第一阈值时,判定所述待检测图片为倾斜图片,其中,所述第二阈值选取自0.8~1.2中的任意值。
在一些可选实施方式中,所述判定模块包括:
第二判定单元,用于设定第三阈值,选取聚类后所求的多个中心斜率值中的最大值与最小值,并求差值,若所述差值大于所述第三阈值,则判定所述待检测图片为纵深倾斜图片,其中,所述第三阈值选取自0.2~0.3中的任意值。
本申请其它方面,提供了一种计算机设备,包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序用于实现如上所述的带文字平面的图片倾斜度检测方法。
该实施例中,本发明可用GPU运行,也可直接在CPU上运行,主要时间区别取决于文字识别部分的速度。目前EAST算法在GPU上为0.3s/帧,在CPU上为1.07s/帧。开发人力成本大约为2个人天。收益为在销售拜访商户,拍摄菜单图片时,当场就可以给出判断结果,图片是否合格。若不合格,销售可以当场重拍,省去了再次拜访的人力成本。另外通过图片质量控制,可以提高整体的图片质量,保证后续的图片信息抓取的准确性和效率。目前菜单图片的文字识别率在40%左右,主要原因在于图片质量过差,过于倾斜的文字无法识别。经过自动审核倾斜度,控制图片质量,识别率可以提高到70%左右。
本申请其它方面,提供了一种可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序被处理器执行时用于实现如上所述的带文字平面的图片倾斜度检测方法。
特别地,根据本申请的实施方式,上文参考流程图描述的过程可以被实现为计算机软件程序,特别是安装在手机终端上的计算机程序,其能够与服务器进行交互。例如,本申请的实施方式包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。本申请的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施方式中所涉及到的模块或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块或单元也可以设置在处理器中,这些模块或单元的名称在某种情况下并不构成对该模块或单元本身的限定。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种带文字平面的图片倾斜度检测方法,其特征在于,包括:
获取待检测图片中各文本行所对应的文本框,以所述文本行所在的文本框的四个顶点进行表示;
对每个文本框的四个顶点进行直线拟合;
对拟合后的直线的斜率进行聚类;
对聚类后的各类别中的直线斜率求平均值,获得多个中心斜率值;
根据多个所述中心斜率值与阈值的比较结果,判定所述待检测图片是否倾斜。
2.如权利要求1所述的带文字平面的图片倾斜度检测方法,其特征在于,对拟合后的直线的斜率进行聚类之前,进一步包括:
设定第一阈值,过滤掉斜率超过所述第一阈值的直线,其中,所述第一阈值选取自4~6中的任意值。
3.如权利要求1所述的带文字平面的图片倾斜度检测方法,其特征在于,对拟合后的直线的斜率进行聚类包括:
设定数量不少于两个的聚类类别,并在每个类别中给定一个初始中心值;
以各直线斜率与各所述初始中心值的欧式距离将所有直线斜率进行初始聚类;
对初始聚类后的各聚类类别,重新计算其内的直线斜率的平均值,并作为新的中心值,对所有直线斜率重新进行聚类,多次迭代直至收敛。
4.如权利要求1所述的带文字平面的图片倾斜度检测方法,其特征在于,判定所述待检测图片是否倾斜包括:
设定第二阈值,对聚类后涵盖直线斜率最多的一个类别中的直线斜率所求的中心斜率值大于所述第一阈值时,判定所述待检测图片为倾斜图片,其中,所述第二阈值选取自0.8~1.2中的任意值。
5.如权利要求1所述的带文字平面的图片倾斜度检测方法,其特征在于,判定所述待检测图片是否倾斜包括:
设定第三阈值,选取聚类后所求的多个中心斜率值中的最大值与最小值,并求差值,若所述差值大于所述第三阈值,则判定所述待检测图片为纵深倾斜图片,其中,所述第三阈值选取自0.2~0.3中的任意值。
6.一种带文字平面的图片倾斜度检测装置,其特征在于,包括:
文本框检测模块,用于获取待检测图片中各文本行所对应的文本框,以所述文本行所在的文本框的四个顶点进行表示;
直线拟合模块,用于对每个文本框的四个顶点进行直线拟合;
聚类模块,用于对拟合后的直线的斜率进行聚类;
中心斜率值获取模块,用于对聚类后的各类别中的直线斜率求平均值,获得多个中心斜率值;
判定模块,用于根据多个所述中心斜率值与阈值的比较结果,判定所述待检测图片是否倾斜。
7.如权利要求6所述的带文字平面的图片倾斜度检测装置,其特征在于,还包括过滤模块,用于在进行聚类之前,通过设定的第一阈值对拟合后的斜率超过所述第一阈值的直线进行过滤,其中,所述第一阈值选取自4~6中的任意值。
8.如权利要求6所述的带文字平面的图片倾斜度检测装置,其特征在于,所述聚类模块包括:
聚类参数设定单元,用于设定数量不少于两个的聚类类别,并在每个类别中给定一个初始中心值;
初始聚类单元,用于以各直线斜率与各所述初始中心值的欧式距离将所有直线斜率进行初始聚类;
迭代单元,用于对初始聚类后的各聚类类别,重新计算其内的直线斜率的平均值,并作为新的中心值,对所有直线斜率重新进行聚类,多次迭代直至收敛。
9.如权利要求6所述的带文字平面的图片倾斜度检测装置,其特征在于,所述判定模块包括:
第一判定单元,用于设定第二阈值,对聚类后涵盖直线斜率最多的一个类别中的直线斜率所求的中心斜率值大于所述第一阈值时,判定所述待检测图片为倾斜图片,其中,所述第二阈值选取自0.8~1.2中的任意值。
10.如权利要求6所述的带文字平面的图片倾斜度检测装置,其特征在于,所述判定模块包括:
第二判定单元,用于设定第三阈值,选取聚类后所求的多个中心斜率值中的最大值与最小值,并求差值,若所述差值大于所述第三阈值,则判定所述待检测图片为纵深倾斜图片,其中,所述第三阈值选取自0.2~0.3中的任意值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011156715.8A CN112257710A (zh) | 2020-10-26 | 2020-10-26 | 一种带文字平面的图片倾斜度检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011156715.8A CN112257710A (zh) | 2020-10-26 | 2020-10-26 | 一种带文字平面的图片倾斜度检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112257710A true CN112257710A (zh) | 2021-01-22 |
Family
ID=74261249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011156715.8A Pending CN112257710A (zh) | 2020-10-26 | 2020-10-26 | 一种带文字平面的图片倾斜度检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257710A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005056346A (ja) * | 2003-08-07 | 2005-03-03 | Ricoh Co Ltd | 傾き検出方法、傾き検出装置およびプログラム |
CN108805131A (zh) * | 2018-05-22 | 2018-11-13 | 北京旷视科技有限公司 | 文本行检测方法、装置及*** |
CN110705233A (zh) * | 2019-09-03 | 2020-01-17 | 平安科技(深圳)有限公司 | 基于文字识别技术的笔记生成方法、装置和计算机设备 |
CN111325199A (zh) * | 2018-12-14 | 2020-06-23 | 中移(杭州)信息技术有限公司 | 一种文字倾斜角度检测方法及装置 |
CN111553344A (zh) * | 2020-04-17 | 2020-08-18 | 携程旅游信息技术(上海)有限公司 | 文本图像的倾斜校正方法、***、设备和存储介质 |
-
2020
- 2020-10-26 CN CN202011156715.8A patent/CN112257710A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005056346A (ja) * | 2003-08-07 | 2005-03-03 | Ricoh Co Ltd | 傾き検出方法、傾き検出装置およびプログラム |
CN108805131A (zh) * | 2018-05-22 | 2018-11-13 | 北京旷视科技有限公司 | 文本行检测方法、装置及*** |
CN111325199A (zh) * | 2018-12-14 | 2020-06-23 | 中移(杭州)信息技术有限公司 | 一种文字倾斜角度检测方法及装置 |
CN110705233A (zh) * | 2019-09-03 | 2020-01-17 | 平安科技(深圳)有限公司 | 基于文字识别技术的笔记生成方法、装置和计算机设备 |
CN111553344A (zh) * | 2020-04-17 | 2020-08-18 | 携程旅游信息技术(上海)有限公司 | 文本图像的倾斜校正方法、***、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
雷超阳;刘军华;: "基于SOM的车牌号码倾斜校正", 长沙交通学院学报, no. 04, 15 December 2007 (2007-12-15) * |
魏宏喜;高光来;: "蒙文文档图像的倾斜检测方法", 内蒙古大学学报(自然科学版), no. 04, 15 July 2007 (2007-07-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008809B (zh) | 表格数据的获取方法、装置和服务器 | |
US9355432B1 (en) | Method and system for automatically cropping images | |
CN110619333B (zh) | 一种文本行分割方法、文本行分割装置及电子设备 | |
CN110913243B (zh) | 一种视频审核的方法、装置和设备 | |
CN111553923B (zh) | 一种图像处理方法、电子设备及计算机可读存储介质 | |
JP7253573B2 (ja) | マッチング方法、装置、電子機器及びコンピュータ可読記憶媒体 | |
CN110390327B (zh) | 前景提取方法、装置、计算机设备及存储介质 | |
CN111259854A (zh) | 一种文本图像中表格的结构化信息的识别方法及装置 | |
CN114119676A (zh) | 基于多特征信息融合的目标检测跟踪识别方法和*** | |
CN116168351B (zh) | 电力设备巡检方法及装置 | |
CN113850238B (zh) | 文档检测方法、装置、电子设备及存储介质 | |
CN111597845A (zh) | 一种二维码检测方法、装置、设备及可读存储介质 | |
JP4967045B2 (ja) | 背景判別装置、方法及びプログラム | |
CN115471439A (zh) | 显示面板缺陷的识别方法、装置、电子设备及存储介质 | |
CN113591433A (zh) | 一种文本排版方法、装置、存储介质及计算机设备 | |
CN112733652A (zh) | 图像目标识别方法、装置、计算机设备及可读存储介质 | |
CN112257710A (zh) | 一种带文字平面的图片倾斜度检测方法及装置 | |
CN115457581A (zh) | 表格提取方法、装置及计算机设备 | |
CN113840135B (zh) | 色偏检测方法、装置、设备及存储介质 | |
CN114926829A (zh) | 一种证件检测方法、装置、电子设备及存储介质 | |
CN114511862A (zh) | 表格识别方法、装置及电子设备 | |
CN115331019A (zh) | 一种数据处理方法、装置、计算机设备和存储介质 | |
CN116584100A (zh) | 适合于覆盖媒体内容的图像空间检测 | |
CN113192171A (zh) | 一种基于云端渲染的三维效果图高效渲染方法及*** | |
CN110942005A (zh) | 物体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |