CN111832371A - 文本图片矫正方法、装置、电子设备及机器可读存储介质 - Google Patents

文本图片矫正方法、装置、电子设备及机器可读存储介质 Download PDF

Info

Publication number
CN111832371A
CN111832371A CN201910330806.XA CN201910330806A CN111832371A CN 111832371 A CN111832371 A CN 111832371A CN 201910330806 A CN201910330806 A CN 201910330806A CN 111832371 A CN111832371 A CN 111832371A
Authority
CN
China
Prior art keywords
text
picture
curve
text line
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910330806.XA
Other languages
English (en)
Inventor
熊龙飞
郑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Guangzhou Kingsoft Mobile Technology Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201910330806.XA priority Critical patent/CN111832371A/zh
Publication of CN111832371A publication Critical patent/CN111832371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供了一种文本图片矫正方法、装置、电子设备及机器可读存储介质,该方法包括:获取待矫正的文本图片;对文本图片进行文本行检测,得到文本图片的各文本行中多个字符的指定点位置信息;根据各文本行中多个字符的指定点位置信息,计算各文本行的扭曲曲线;基于各文本行的扭曲曲线,对文本图片进行矫正映射,得到矫正后的文本图片。应用本发明实施例,能够实现对文本图片中扭曲的文本内容的矫正,提高用户的阅读体验。

Description

文本图片矫正方法、装置、电子设备及机器可读存储介质
技术领域
本发明涉及图像处理技术领域,特别是涉及一种文本图片矫正方法、装置、电子设备及机器可读存储介质。
背景技术
随着电子技术的发展,经常需要对纸质文本进行拍照或扫描,以满足人们便于对文本进行查看、共享文本内容等需求。然而,在对纸质文本进行拍照或者扫描时,由于书籍等载体存在一定的厚度,无法避免拍摄或者扫描的文本图片中的文本内容会出现扭曲,影响人们的阅读体验。
发明内容
本发明实施例的目的在于提供一种文本图片矫正方法、装置、电子设备及机器可读存储介质,以实现对文本图片中扭曲的文本内容的矫正,提高阅读体验。具体技术方案如下:
第一方面,本发明实施例提供了一种文本图片矫正方法,所述方法包括:
获取待矫正的文本图片;
对所述文本图片进行文本行检测,得到所述文本图片的各文本行中多个字符的指定点位置信息;
根据所述各文本行中多个字符的指定点位置信息,计算所述各文本行的扭曲曲线;
基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片。
优选地,所述对文本图片进行文本行检测,得到所述文本图片的各文本行中多个字符的指定点位置信息,包括:
对所述文本图片进行文档区域检测,得到所述文本图片中文档区域的检测框坐标;
根据所述检测框坐标,从所述文档区域中,检测得到所述文档区域的各文本行中多个字符的指定点位置信息。
优选地,所述根据所述各文本行中多个字符的指定点位置信息,计算所述各文本行的扭曲曲线,包括:
构建初始化曲线;
根据所述各文本行中多个字符的指定点位置信息,计算所述指定点位置信息中的第一纵坐标与所述初始化曲线上的第二纵坐标的误差值,构建所述各文本行相应于所述初始化曲线的误差函数,所述第二纵坐标为所述初始化曲线上与所述指定位置信息中相同的横坐标对应的纵坐标;
根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线。
优选地,所述根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线,包括:
对所述各文本行相应于所述初始化曲线的误差函数进行最小化运算,拟合得到所述各文本行的扭曲曲线。
优选地,所述基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片,包括:
将所述各文本行的扭曲曲线组成三维网格,构成扭曲曲面;
将所述扭曲曲面映射至平面图片,得到矫正后的文本图片。
优选地,在所述基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片之后,所述方法还包括:
采用字符识别技术,识别所述矫正后的文本图片中的各字符。
第二方面,本发明实施例提供了一种文本图片矫正装置,包括:
获取模块,用于获取待矫正的文本图片;
检测模块,用于对所述文本图片进行文本行检测,得到所述文本图片的各文本行中多个字符的指定点位置信息;
计算模块,用于根据所述各文本行中多个字符的指定点位置信息,计算所述各文本行的扭曲曲线;
矫正模块,用于基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片。
优选地,所述检测模块,具体用于:
对所述文本图片进行文档区域检测,得到所述文本图片中文档区域的检测框坐标;
根据所述检测框坐标,从所述文档区域中,检测得到所述文档区域的各文本行中多个字符的指定点位置信息。
优选地,所述计算模块,具体用于:
构建初始化曲线;
根据所述各文本行中多个字符的指定点位置信息,计算所述指定点位置信息中的第一纵坐标与所述初始化曲线上的第二纵坐标的误差值,构建所述各文本行相应于所述初始化曲线的误差函数,所述第二纵坐标为所述初始化曲线上与所述指定位置信息中相同的横坐标对应的纵坐标;
根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线。
优选地,所述计算模块在用于所述根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线时,具体用于:
对所述各文本行相应于所述初始化曲线的误差函数进行最小化运算,拟合得到所述各文本行的扭曲曲线。
优选地,所述矫正模块,具体用于:
将所述各文本行的扭曲曲线组成三维网格,构成扭曲曲面;
将所述扭曲曲面映射至平面图片,得到矫正后的文本图片。
优选地,所述装置还包括:
字符识别模块,用于采用字符识别技术,识别所述矫正后的文本图片中的各字符。
第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的计算机程序时,实现本发明实施例第一方面所提供的方法。
第四方面,本发明实施例提供了一种机器可读存储介质,所述机器可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面所提供的方法。
本发明实施例提供的一种文本图片矫正方法、装置、电子设备及机器可读存储介质,获取待矫正的文本图片,对文本图片进行文本行检测,得到文本图片的各文本行中多个字符的指定点位置信息,根据各文本行中多个字符的指定点位置信息,计算各文本行的扭曲曲线,基于各文本行的扭曲曲线,对文本图片进行矫正映射,得到矫正后的文本图片。通过对文本图片中的文本行进行检测,得到各文本行中多个字符的指定点位置信息,字符的指定点位置信息表征了字符在文本图片中的具***置,则根据多个字符的指定点位置信息,能够计算出各文本行的扭曲曲线,扭曲曲线表征了文本行的扭曲情况,基于各文本行的扭曲情况,通过矫正映射,能够将原本扭曲的文本图片矫正为不扭曲的文本图片,实现了对文本图片中扭曲的文本内容的矫正,提高了用户阅读体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的文本图片矫正方法的流程示意图;
图2为本发明实施例的扭曲曲面示意图;
图3(a)为本发明实施例的待矫正图片的展示示意图;
图3(b)为本发明实施例的矫正后图片的展示示意图;
图4为本发明实施例的文本图片字符识别的流程示意图;
图5(a)为本发明实施例的待矫正图片的展示示意图;
图5(b)为本发明实施例的矫正后图片的展示示意图;
图6为本发明实施例的文本图片矫正装置的结构示意图;
图7为本发明实施例的电子设备的结构示意图;
图8为本发明实施例的显示***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现了对文本图片中扭曲的文本内容的矫正,提高用户的阅读体验,本发明实施例提供了一种文本图片矫正方法、装置、电子设备及机器可读存储介质。下面,首先对本发明实施例所提供的文本图片矫正方法进行介绍。
本发明实施例所提供的文本图片矫正方法的执行主体可以为手机、相机等具有拍摄功能的终端设备;还可以是后台的服务器,在图像采集设备拍摄到文本图片后发送到后台服务器进行矫正;还可以是显示设备,在图像采集设备拍摄到文本图片后发送到显示设备进行矫正并显示。实现本发明实施例所提供的文本图片矫正方法的方式可以为设置于执行主体中的软件、硬件电路和逻辑电路中的至少一种方式。
如图1所示,本发明实施例所提供的文本图片矫正方法的流程示意图,该方法可以包括如下步骤:
S101,获取待矫正的文本图片。
待矫正的文本图片为所包含的图片内容中,文本内容存在扭曲现象的文本图片。本发明实施例的执行主体可以在接收到用户输入矫正需求时,从存储介质中获取用户指定的待矫正的文本图片进行矫正操作;也可以是执行主体针对于实时采集的文本图片,在自动识别到文本图片中存在扭曲现象时,开始获取待矫正的文本图片进行矫正操作。
S102,对文本图片进行文本行检测,得到文本图片的各文本行中多个字符的指定点位置信息。
对于文本图片,可以采用传统的文本行检测技术,对文本图片中的各文本行进行检测,传统的文本行检测技术主要是通过对字符进行检测,在检测出各文本行中的字符后,输入字符的指定点位置信息,字符的指定点位置信息可以由算法的设定决定,可以是字符底部中点的位置信息、顶部中点的位置信息、字符的中心点的位置信息等等。
由于在拍摄文本图片时,受拍摄角度、聚焦范围等影响,文本图片中可能不仅仅包含文本文档所处的区域,还可能包含有其他非文档区域的内容。为了提高文本行检测的效率,减少非文档区域的内容对文本行检测结果的影响,优选地,S102具体可以通过如下步骤实现:
第一步,对文本图片进行文档区域检测,得到文本图片中文档区域的检测框坐标。
第二步,根据检测框坐标,从文档区域中,检测得到文档区域的各文本行中多个字符的指定点位置信息。
对于获取到的待矫正的文本图片,首先可以对文本图片进行文档区域检测,检测出文本图片中的文档区域,进行文档区域检测的方法,可以采用特征匹配算法、深度学习算法等实现,为了保证检测的精度和计算效率,通常可以选择深度学习算法进行文档区域检测,通过检测可以得到文档区域的检测框坐标,其中,深度学习算法可以为现有的应用于文档识别的卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(RecurrentNeural Network,RNN)等算法,所采用的算法可以识别文本图片中的文档内容即可,这里不做详细的限定。
检测框坐标可以是文档区域所处的检测框的四个顶点的坐标,代表了检测框在文本图片中的具***置,这样,根据检测框坐标,以及文档区域中各文本行中字符相距于检测框的距离,换算出字符的指定点位置信息。示例性的,以检测框左下角为原点,根据字符的指定点位置相对于检测框左下角位置的距离,标记出指定点位置信息。
在具体的文本行检测方法中,首先可以采用连通域的识别方式识别出可能的字符候选框,同时根据字符候选框的识别结果计算出所有字符的平均高度,过滤掉一些太大和太小的字符候选框,输出保留下来的各字符的候选框中底部边的中心点位置信息作为字符的指定点位置信息。
S103,根据各文本行中多个字符的指定点位置信息,计算各文本行的扭曲曲线。
在检测得到各文本行中多个字符的指定点位置信息后,字符的指定点位置信息表征了字符在文本行中的位置,通过对一个文本行中多个字符的指定点进行连线,或者,更进一步的,对一个文本行中多个字符的指定点的连线进行拟合,即可得到该文本行的扭曲曲线,扭曲曲线表征了文本行的扭曲情况,扭曲曲线波动越大,则文本行的扭曲程度越严重。
如果在检测得到各文本行中多个字符的指定点位置信息后,直接将一个文本行中多个字符的指定点连接起来作为扭曲曲线,受连线规则的限制,扭曲曲线与实际的文本行扭曲情况之间往往存在误差。为了更为精确的得到各文本行的扭曲曲线,优选地,S103具体可以通过如下步骤实现:
第一步,构建初始化曲线。
第二步,根据各文本行中多个字符的指定点位置信息,计算指定点位置信息中的第一纵坐标与初始化曲线上的第二纵坐标的误差值,构建各文本行相应于初始化曲线的误差函数,其中,第二纵坐标为初始化曲线上与指定位置信息中相同的横坐标对应的纵坐标。
第三步,根据各文本行相应于初始化曲线的误差函数,通过曲线拟合,得到各文本行的扭曲曲线。
首先可以初始化一条曲线,作为拟合扭曲曲线的参考线,初始化曲线在一种特殊情况下,还可以是一条直线。初始化曲线作为参考线,可以得到文本行中多个字符的指定点位置信息与初始化曲线上对应点的坐标的误差,对应关系可以为相同的横坐标,则误差为相同横坐标下,文本行上的字符与初始化曲线在y方向上的误差。对于一个文本行而言,可以得到该文本行上多个字符对应的误差,进一步的可以构建出误差函数,基于误差函数,通过曲线拟合,即可得到各文本行的扭曲曲线。
可选的,根据各文本行相应于初始化曲线的误差函数,通过曲线拟合,得到各文本行的扭曲曲线的步骤,具体可以为:对各文本行相应于初始化曲线的误差函数进行最小化运算,拟合得到各文本行的扭曲曲线。
具体的,可以通过一个一元多次方程(例如一元四次方程)来表示文本行的扭曲曲线,针对于每个文本行对应的误差函数,通过对误差函数进行最小化运算,可以计算出一元多次方程的参数,这样就可以准确的确定出一元多次方程,从而拟合得到扭曲曲线,用来表征每个文本行的扭曲情况。
S104,基于各文本行的扭曲曲线,对文本图片进行矫正映射,得到矫正后的文本图片。
在计算得到各文本行的扭曲曲线之后,如果将每一个文本行的扭曲曲线进行拉直平铺的映射处理,可以映射出每一个文本行矫正后的效果,然而,由于整个文本图片的扭曲情况是需要综合所有文本行的扭曲情况进行限定的,如果每个文本行单独进行矫正,会使得矫正后的效果不太理想,容易出现字符显示不规则的情况。因此,通常情况下,可以选择3D映射的方式进行文本图片的矫正映射,具体的,可以通过三维映射函数实现映射。
优选地,S104具体可以通过如下步骤实现:
将各文本行的扭曲曲线组成三维网格,构成扭曲曲面;将扭曲曲面映射至平面图片,得到矫正后的文本图片。
基于各文本行的扭曲曲线,通过三维网格构成如图2所示的扭曲曲面。对扭曲曲面进行矫正映射的过程,可以采用重映射的方式实现,例如CV2.remap图像矫正方法。重映射是把一幅图像中某位置的像素映射到另一幅图像指定位置的过程。这样可以将我们组成的三维的扭曲曲面对应的变形纹理映射至平面图片中,从而获得矫正后的文本图片。
图3(a)给出了获取到的原始的文本图片,采用本发明实施例所提供的方法,对图3(a)所示的文本图片进行矫正,可以达到图3(b)所示的矫正效果,可以看出,图3(b)达到了理想的矫正效果,文本内容得到了平铺矫正,使得使用者阅读起来更加舒适和直观。
应用本发明实施例,获取待矫正的文本图片,对文本图片进行文本行检测,得到文本图片的各文本行中多个字符的指定点位置信息,根据各文本行中多个字符的指定点位置信息,计算各文本行的扭曲曲线,基于各文本行的扭曲曲线,对文本图片进行矫正映射,得到矫正后的文本图片。通过对文本图片中的文本行进行检测,得到各文本行中多个字符的指定点位置信息,字符的指定点位置信息表征了字符在文本图片中的具***置,则根据多个字符的指定点位置信息,能够计算出各文本行的扭曲曲线,扭曲曲线表征了文本行的扭曲情况,基于各文本行的扭曲情况,通过矫正映射,能够将原本扭曲的文本图片矫正为不扭曲的文本图片,实现了对文本图片中扭曲的文本内容的矫正,提高了用户阅读体验。
基于图1所示实施例,本发明实施例在对文本图片进行矫正之后,还可以对文本图片进行字符识别,如图4所示,可以包括如下步骤:
S401,获取待矫正的文本图片。
S402,对文本图片进行文本行检测,得到文本图片的各文本行中多个字符的指定点位置信息。
S403,根据各文本行中多个字符的指定点位置信息,计算各文本行的扭曲曲线。
S404,基于各文本行的扭曲曲线,对文本图片进行矫正映射,得到矫正后的文本图片。
本发明实施例中S401至S404的步骤,与图1所示实施例的S101至S104的步骤相同,这里不再赘述。
S405,采用字符识别技术,识别矫正后的文本图片中的各字符。
对于传统的字符识别技术,例如光学字符识别(Optical CharacterRecognition,OCR)技术,由于待矫正的文本图片存在文本弯曲的情况,使得在进行字符识别时,很难准确识别出字符,或者识别的结果也可能是错误的,如图5(a)所示,在进行字符识别时,识别框与字符的实际差异较大,导致无法识别字符,或者识别错误。
为了提高字符识别结果的准确率,可以在执行完本发明实施例所提供的文本图片矫正的步骤之后,再采用OCR等字符识别技术,对矫正后的文本图片中的字符进行识别,由于矫正后的文本图片是没有弯曲情况的图片或者弯曲很小的图片,再利用字符识别技术进行字符识别,可以准确地识别出图片中的字符,如图5(b)所示,字符识别时,识别框可以更为准确的覆盖对应的每一个文本行,从而可以保证准确识别出图片中的字符。
应用上述方法实施例,本发明实施例还提供了一种文本图片矫正装置,如图6所示,该文本图片矫正装置可以包括:
获取模块610,用于获取待矫正的文本图片;
检测模块620,用于对所述文本图片进行文本行检测,得到所述文本图片的各文本行中多个字符的指定点位置信息;
计算模块630,用于根据所述各文本行中多个字符的指定点位置信息,计算所述各文本行的扭曲曲线;
矫正模块640,用于基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片。
优选地,所述检测模块620,具体可以用于:
对所述文本图片进行文档区域检测,得到所述文本图片中文档区域的检测框坐标;
根据所述检测框坐标,从所述文档区域中,检测得到所述文档区域的各文本行中多个字符的指定点位置信息。
优选地,所述计算模块630,具体可以用于:
构建初始化曲线;
根据所述各文本行中多个字符的指定点位置信息,计算所述指定点位置信息中的第一纵坐标与所述初始化曲线上的第二纵坐标的误差值,构建所述各文本行相应于所述初始化曲线的误差函数,所述第二纵坐标为所述初始化曲线上与所述指定位置信息中相同的横坐标对应的纵坐标;
根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线。
优选地,所述计算模块630在用于所述根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线时,具体还可以用于:
对所述各文本行相应于所述初始化曲线的误差函数进行最小化运算,拟合得到所述各文本行的扭曲曲线。
优选地,所述矫正模块640,具体可以用于:
将所述各文本行的扭曲曲线组成三维网格,构成扭曲曲面;
将所述扭曲曲面映射至平面图片,得到矫正后的文本图片。
优选地,所述装置还可以包括:
字符识别模块,用于采用字符识别技术,识别所述矫正后的文本图片中的各字符。
应用本发明实施例,获取待矫正的文本图片,对文本图片进行文本行检测,得到文本图片的各文本行中多个字符的指定点位置信息,根据各文本行中多个字符的指定点位置信息,计算各文本行的扭曲曲线,基于各文本行的扭曲曲线,对文本图片进行矫正映射,得到矫正后的文本图片。通过对文本图片中的文本行进行检测,得到各文本行中多个字符的指定点位置信息,字符的指定点位置信息表征了字符在文本图片中的具***置,则根据多个字符的指定点位置信息,能够计算出各文本行的扭曲曲线,扭曲曲线表征了文本行的扭曲情况,基于各文本行的扭曲情况,通过矫正映射,能够将原本扭曲的文本图片矫正为不扭曲的文本图片,实现了对文本图片中扭曲的文本内容的矫正,提高了用户阅读体验。
本发明实施例还提供了一种电子设备,如图图7所示,包括处理器701和存储器702,其中,
所述存储器702,用于存放计算机程序;
所述处理器701,用于执行存储器上所存放的计算机程序时,实现上述任一文本图片矫正方法。
存储器702与处理器701之间可以通过有线连接或者无线连接的方式进行数据传输,并且电子设备可以通过有线通信接口或者无线通信接口与其他的设备进行通信。
上述存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本实施例中,该电子设备的处理器通过读取机器可读存储介质中存储的机器可执行指令,并通过运行该机器可执行指令,能够实现:获取待矫正的文本图片,对文本图片进行文本行检测,得到文本图片的各文本行中多个字符的指定点位置信息,根据各文本行中多个字符的指定点位置信息,计算各文本行的扭曲曲线,基于各文本行的扭曲曲线,对文本图片进行矫正映射,得到矫正后的文本图片。通过对文本图片中的文本行进行检测,得到各文本行中多个字符的指定点位置信息,字符的指定点位置信息表征了字符在文本图片中的具***置,则根据多个字符的指定点位置信息,能够计算出各文本行的扭曲曲线,扭曲曲线表征了文本行的扭曲情况,基于各文本行的扭曲情况,通过矫正映射,能够将原本扭曲的文本图片矫正为不扭曲的文本图片,实现了对文本图片中扭曲的文本内容的矫正,提高了用户阅读体验。
另外,本发明还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算程序,所述计算程序被处理器执行时实现上述任一文本图片矫正方法。
本实施例中,机器可读存储介质存储有在运行时执行本发明实施例所提供的文本图片矫正方法的机器计算机程序,因此能够实现:获取待矫正的文本图片,对文本图片进行文本行检测,得到文本图片的各文本行中多个字符的指定点位置信息,根据各文本行中多个字符的指定点位置信息,计算各文本行的扭曲曲线,基于各文本行的扭曲曲线,对文本图片进行矫正映射,得到矫正后的文本图片。通过对文本图片中的文本行进行检测,得到各文本行中多个字符的指定点位置信息,字符的指定点位置信息表征了字符在文本图片中的具***置,则根据多个字符的指定点位置信息,能够计算出各文本行的扭曲曲线,扭曲曲线表征了文本行的扭曲情况,基于各文本行的扭曲情况,通过矫正映射,能够将原本扭曲的文本图片矫正为不扭曲的文本图片,实现了对文本图片中扭曲的文本内容的矫正,提高了用户阅读体验。
本发明实施例还提供了一种显示***,如图8所示,包括显示屏801和电子设备802,其中,
所述显示屏801,用于展示待矫正的文本图片;
所述电子设备802,用于实现如下步骤:
获取待矫正的文本图片;
对所述文本图片进行文本行检测,得到所述文本图片的各文本行中多个字符的指定点位置信息;
根据所述各文本行中多个字符的指定点位置信息,计算所述各文本行的扭曲曲线;
基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片。
可选的,上述电子设备802在运行时还可以实现上述任一文本图片矫正方法。
应用本发明实施例,通过获取待矫正的文本图片,对文本图片进行文本行检测,得到文本图片的各文本行中多个字符的指定点位置信息,根据各文本行中多个字符的指定点位置信息,计算各文本行的扭曲曲线,基于各文本行的扭曲曲线,对文本图片进行矫正映射,得到矫正后的文本图片。通过对文本图片中的文本行进行检测,得到各文本行中多个字符的指定点位置信息,字符的指定点位置信息表征了字符在文本图片中的具***置,则根据多个字符的指定点位置信息,能够计算出各文本行的扭曲曲线,扭曲曲线表征了文本行的扭曲情况,基于各文本行的扭曲情况,通过矫正映射,能够将原本扭曲的文本图片矫正为不扭曲的文本图片,实现了对文本图片中扭曲的文本内容的矫正,提高了用户阅读体验。
对于电子设备、机器可读存储介质及显示***实施例而言,由于其所涉及的方法内容基本相似于前述的方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、机器可读存储介质及显示***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种文本图片矫正方法,其特征在于,所述方法包括:
获取待矫正的文本图片;
对所述文本图片进行文本行检测,得到所述文本图片的各文本行中多个字符的指定点位置信息;
根据所述各文本行中多个字符的指定点位置信息,计算所述各文本行的扭曲曲线;
基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本图片进行文本行检测,得到所述文本图片的各文本行中多个字符的指定点位置信息,包括:
对所述文本图片进行文档区域检测,得到所述文本图片中文档区域的检测框坐标;
根据所述检测框坐标,从所述文档区域中,检测得到所述文档区域的各文本行中多个字符的指定点位置信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述各文本行中多个字符的指定点位置信息,计算所述各文本行的扭曲曲线,包括:
构建初始化曲线;
根据所述各文本行中多个字符的指定点位置信息,计算所述指定点位置信息中的第一纵坐标与所述初始化曲线上的第二纵坐标的误差值,构建所述各文本行相应于所述初始化曲线的误差函数,所述第二纵坐标为所述初始化曲线上与所述指定位置信息中相同的横坐标对应的纵坐标;
根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线。
4.根据权利要求3所述的方法,其特征在于,所述根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线,包括:
对所述各文本行相应于所述初始化曲线的误差函数进行最小化运算,拟合得到所述各文本行的扭曲曲线。
5.根据权利要求1所述的方法,其特征在于,所述基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片,包括:
将所述各文本行的扭曲曲线组成三维网格,构成扭曲曲面;
将所述扭曲曲面映射至平面图片,得到矫正后的文本图片。
6.根据权利要求1所述的方法,其特征在于,在所述基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片之后,所述方法还包括:
采用字符识别技术,识别所述矫正后的文本图片中的各字符。
7.一种文本图片矫正装置,其特征在于,所述装置包括:
获取模块,用于获取待矫正的文本图片;
检测模块,用于对所述文本图片进行文本行检测,得到所述文本图片的各文本行中多个字符的指定点位置信息;
计算模块,用于根据所述各文本行中多个字符的指定点位置信息,计算所述各文本行的扭曲曲线;
矫正模块,用于基于所述各文本行的扭曲曲线,对所述文本图片进行矫正映射,得到矫正后的文本图片。
8.根据权利要求7所述的装置,其特征在于,所述检测模块,具体用于:
对所述文本图片进行文档区域检测,得到所述文本图片中文档区域的检测框坐标;
根据所述检测框坐标,从所述文档区域中,检测得到所述文档区域的各文本行中多个字符的指定点位置信息。
9.根据权利要求7所述的装置,其特征在于,所述计算模块,具体用于:
构建初始化曲线;
根据所述各文本行中多个字符的指定点位置信息,计算所述指定点位置信息中的第一纵坐标与所述初始化曲线上的第二纵坐标的误差值,构建所述各文本行相应于所述初始化曲线的误差函数,所述第二纵坐标为所述初始化曲线上与所述指定位置信息中相同的横坐标对应的纵坐标;
根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线。
10.根据权利要求9所述的装置,其特征在于,所述计算模块在用于所述根据所述各文本行相应于所述初始化曲线的误差函数,通过曲线拟合,得到所述各文本行的扭曲曲线时,具体用于:
对所述各文本行相应于所述初始化曲线的误差函数进行最小化运算,拟合得到所述各文本行的扭曲曲线。
11.根据权利要求7所述的装置,其特征在于,所述矫正模块,具体用于:
将所述各文本行的扭曲曲线组成三维网格,构成扭曲曲面;
将所述扭曲曲面映射至平面图片,得到矫正后的文本图片。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
字符识别模块,用于采用字符识别技术,识别所述矫正后的文本图片中的各字符。
13.一种电子设备,其特征在于,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-6任一项所述的方法步骤。
14.一种机器可读存储介质,其特征在于,所述机器可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
CN201910330806.XA 2019-04-23 2019-04-23 文本图片矫正方法、装置、电子设备及机器可读存储介质 Pending CN111832371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910330806.XA CN111832371A (zh) 2019-04-23 2019-04-23 文本图片矫正方法、装置、电子设备及机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910330806.XA CN111832371A (zh) 2019-04-23 2019-04-23 文本图片矫正方法、装置、电子设备及机器可读存储介质

Publications (1)

Publication Number Publication Date
CN111832371A true CN111832371A (zh) 2020-10-27

Family

ID=72911582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910330806.XA Pending CN111832371A (zh) 2019-04-23 2019-04-23 文本图片矫正方法、装置、电子设备及机器可读存储介质

Country Status (1)

Country Link
CN (1) CN111832371A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509106A (zh) * 2020-11-17 2021-03-16 科大讯飞股份有限公司 文档图片展平方法、装置以及设备
CN112801088A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 一种扭曲文本行图像矫正的方法和相关装置
CN113205090A (zh) * 2021-04-29 2021-08-03 北京百度网讯科技有限公司 图片矫正方法、装置、电子设备及计算机可读存储介质
CN113627242A (zh) * 2021-06-30 2021-11-09 中国科学院深圳先进技术研究院 一种文本处理方法及相关装置
CN113792730A (zh) * 2021-08-17 2021-12-14 北京百度网讯科技有限公司 文档图像的矫正方法、装置、电子设备和存储介质
CN115471846A (zh) * 2022-09-22 2022-12-13 中电金信软件有限公司 一种图像矫正方法、装置、电子设备及可读存储介质
WO2024078233A1 (zh) * 2022-10-10 2024-04-18 杭州睿胜软件有限公司 包含文本的图像处理方法、***及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100225937A1 (en) * 2009-03-06 2010-09-09 Simske Steven J Imaged page warp correction
US20140140635A1 (en) * 2012-11-20 2014-05-22 Hao Wu Image rectification using text line tracks
US20140140627A1 (en) * 2012-11-20 2014-05-22 Hao Wu Image rectification using sparsely-distributed local features
CN105989366A (zh) * 2015-01-30 2016-10-05 深圳市思路飞扬信息技术有限责任公司 文本图像的倾斜角矫正、版面分析方法和助视装置、***
CN106778739A (zh) * 2016-12-02 2017-05-31 中国人民解放军国防科学技术大学 一种曲面化变形文本页面图像矫正方法
JP2017182195A (ja) * 2016-03-28 2017-10-05 コニカミノルタ株式会社 文書修正方法、文書修正装置、文書印刷装置、誤り検出のための画像、およびコンピュータプログラム
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100225937A1 (en) * 2009-03-06 2010-09-09 Simske Steven J Imaged page warp correction
US20140140635A1 (en) * 2012-11-20 2014-05-22 Hao Wu Image rectification using text line tracks
US20140140627A1 (en) * 2012-11-20 2014-05-22 Hao Wu Image rectification using sparsely-distributed local features
CN105989366A (zh) * 2015-01-30 2016-10-05 深圳市思路飞扬信息技术有限责任公司 文本图像的倾斜角矫正、版面分析方法和助视装置、***
JP2017182195A (ja) * 2016-03-28 2017-10-05 コニカミノルタ株式会社 文書修正方法、文書修正装置、文書印刷装置、誤り検出のための画像、およびコンピュータプログラム
CN106778739A (zh) * 2016-12-02 2017-05-31 中国人民解放军国防科学技术大学 一种曲面化变形文本页面图像矫正方法
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509106A (zh) * 2020-11-17 2021-03-16 科大讯飞股份有限公司 文档图片展平方法、装置以及设备
CN112801088A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 一种扭曲文本行图像矫正的方法和相关装置
CN112801088B (zh) * 2020-12-31 2024-05-31 科大讯飞股份有限公司 一种扭曲文本行图像矫正的方法和相关装置
CN113205090A (zh) * 2021-04-29 2021-08-03 北京百度网讯科技有限公司 图片矫正方法、装置、电子设备及计算机可读存储介质
CN113205090B (zh) * 2021-04-29 2023-10-24 北京百度网讯科技有限公司 图片矫正方法、装置、电子设备及计算机可读存储介质
CN113627242A (zh) * 2021-06-30 2021-11-09 中国科学院深圳先进技术研究院 一种文本处理方法及相关装置
WO2023273188A1 (zh) * 2021-06-30 2023-01-05 中国科学院深圳先进技术研究院 一种文本处理方法及相关装置
CN113792730A (zh) * 2021-08-17 2021-12-14 北京百度网讯科技有限公司 文档图像的矫正方法、装置、电子设备和存储介质
CN113792730B (zh) * 2021-08-17 2022-09-27 北京百度网讯科技有限公司 文档图像的矫正方法、装置、电子设备和存储介质
CN115471846A (zh) * 2022-09-22 2022-12-13 中电金信软件有限公司 一种图像矫正方法、装置、电子设备及可读存储介质
CN115471846B (zh) * 2022-09-22 2023-06-27 中电金信软件有限公司 一种图像矫正方法、装置、电子设备及可读存储介质
WO2024078233A1 (zh) * 2022-10-10 2024-04-18 杭州睿胜软件有限公司 包含文本的图像处理方法、***及存储介质

Similar Documents

Publication Publication Date Title
CN111832371A (zh) 文本图片矫正方法、装置、电子设备及机器可读存储介质
CN107798299B (zh) 票据信息识别方法、电子装置及可读存储介质
US10289924B2 (en) System and method for scanned document correction
JP5387193B2 (ja) 画像処理システム、画像処理装置およびプログラム
RU2631765C1 (ru) Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот
US9495735B2 (en) Document unbending systems and methods
US9495587B2 (en) Document unbending and recoloring systems and methods
US20040165786A1 (en) System and method for converting whiteboard content into an electronic document
US8811751B1 (en) Method and system for correcting projective distortions with elimination steps on multiple levels
US8897600B1 (en) Method and system for determining vanishing point candidates for projective correction
EP2650821A1 (en) Text image trimming method
US20100135595A1 (en) Image processing apparatus and image processing method
WO2016018987A1 (en) Detecting specified image identifiers on objects
CN109697414B (zh) 一种文本定位方法及装置
US8913836B1 (en) Method and system for correcting projective distortions using eigenpoints
CN109948521A (zh) 图像纠偏方法和装置、设备及存储介质
CN115937003A (zh) 图像处理方法、装置、终端设备和可读存储介质
CN111667556A (zh) 表格矫正方法及装置
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
CN112419207A (zh) 一种图像矫正方法及装置、***
CN114694161A (zh) 一种特定版式证件的文本识别方法、设备及存储介质
CN112016341A (zh) 一种文本图片矫正方法及装置
CN114742722A (zh) 文档矫正方法、装置、电子设备及存储介质
CN111260574A (zh) 一种***照片矫正的方法、终端及计算机可读存储介质
CN112396057A (zh) 一种字符识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination