CN113096170B - 文本图像配准方法、装置、设备、存储介质 - Google Patents

文本图像配准方法、装置、设备、存储介质 Download PDF

Info

Publication number
CN113096170B
CN113096170B CN202110639946.2A CN202110639946A CN113096170B CN 113096170 B CN113096170 B CN 113096170B CN 202110639946 A CN202110639946 A CN 202110639946A CN 113096170 B CN113096170 B CN 113096170B
Authority
CN
China
Prior art keywords
text
image
point
image feature
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110639946.2A
Other languages
English (en)
Other versions
CN113096170A (zh
Inventor
李盼盼
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110639946.2A priority Critical patent/CN113096170B/zh
Publication of CN113096170A publication Critical patent/CN113096170A/zh
Application granted granted Critical
Publication of CN113096170B publication Critical patent/CN113096170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种文本图像的配准方法、装置、设备、存储介质,及程序产品。其中,所述方法包括:对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得第一文本图像的第一图像特征点和第二文本图像的第二图像特征点;对第一文本图像的第一文本区域和第二文本图像的第二文本区域分别进行关键点检测;基于第一文本区域和第二文本区域的关键点,从第一图像特征点和第二图像特征点中分别筛选出位于关键点预设范围内的第三图像特征点和第四图像特征点;基于第三图像特征点和第四图像特征点的特征描述数据,获得第一文本图像和第二文本图像的配准结果。通过本实施例,能够提高文本图像配准的效率和准确性。

Description

文本图像配准方法、装置、设备、存储介质
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种文本图像的配准方法、装置、电子设备、计算机可读存储介质,以及计算机程序产品。
背景技术
图像配准技术是图像处理研究领域的一项热点和难点技术,其目的在于比较和融合针对同一对象在不同条件下获取的图像,例如,针对同一对象在不同时间、不同光照,或者不同拍摄角度下获取的图像。具体来说,对于两张待配准图像,通过一系列操作,得到空间位置变换,把一张图像映射到另一张图像上,也即是将两张图像中空间同一位置的像素点一一对应起来。图像配准技术在目标检测、模型重建、运动估计、特征匹配,肿瘤检测、病变定位、血管造影、地质勘探、航空侦察等领域有着广泛的应用。
目前,图像配准技术在文本图像上的配准效果不佳,尤其是变化比较复杂的文本图像。如何有效提高文本图像配准的效率和准确性成为当前亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种文本图像的配准方法、装置、电子设备、计算机可读存储介质,以及计算机程序产品,用以解决上述技术问题至少之一。
根据本发明实施例的第一方面,提供了一种文本图像的配准方法。所述方法包括:对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得所述第一文本图像的第一图像特征点和所述第二文本图像的第二图像特征点;对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点,并对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点;基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点,基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点;基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果。
根据本发明实施例的第二方面,提供了一种文本图像的配准装置。所述装置包括:特征提取模块,用于对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得所述第一文本图像的第一图像特征点和所述第二文本图像的第二图像特征点;关键点检测模块,用于对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点,并对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点;筛选模块,用于基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点,基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点;配准模块,用于基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果。
根据本发明实施例的第三方面,提供了一种电子设备。所述电子设备包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据本发明实施例的第一方面所述的方法。
根据本发明实施例的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本发明实施例的第一方面所述的方法。
根据本发明实施例的第五方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现本发明实施例的第一方面所述的方法。
根据本发明实施例提供的文本图像的配准方案,对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得第一文本图像的第一图像特征点和第二文本图像的第二图像特征点,并对第一文本图像的第一文本区域和第二文本图像的第二文本区域分别进行关键点检测,再基于第一文本区域和第二文本区域的关键点,从第一图像特征点和第二图像特征点中分别筛选出,位于第一文本区域的关键点的第一预设范围内的第三图像特征点和位于第二文本区域的关键点的第二预设范围内的第四图像特征点,再基于第三图像特征点和第四图像特征点的特征描述数据,对第一文本图像和第二文本图像进行配准。一方面,仅筛选位于文本区域的关键点的预设范围内的部分图像特征点用于文本图像配准,减少了用于文本图像配准的图像特征点的数量,从而可以缩短图像特征点匹配所需的时间,有效提高文本图像配准的效率。另一方面,所筛选到的图像特征点位于文本区域的关键点的预设范围内,保留了对于文本图像配准最有意义的图像特征点,剔除了对于文本图像配准无用的图像特征点,能够提高图像特征点匹配的准确性,进而可以提高文本图像配准的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例一的文本图像的配准方法的步骤流程图;
图2示出了本发明实施例二的题目批改方法的步骤流程图;
图3示出了本发明实施例三的文本图像的配准装置的结构示意图;
图4示出了本发明实施例四的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
在详细介绍本发明实施例的具体实施方式之前,简要说明一下本发明实施例的技术方案的设计思路。具体地,基于手工设计特征提取器的方法,如SIFT(Scale InvariantFeature Transform,尺度不变特征转换)、SURF(Speeded Up Robust Features,加速稳健特征)、BRIEF(Binary robust independent elementary features,二元稳健的独立基本特征)等,其检测到的图像特征点对应的特征描述符往往是基于图像特征点附近的像素点的像素值的统计特征,从某种意义上说,只是低层次的特征,而不是表征能力更强的语义等高层次特征,同时,用于文本图像配准的单应矩阵只有八个未知数,因此一般情况下,只需要四对匹配的图像特征点便可以计算得到单应矩阵,而任意一张文本图像上都能提取到上千个图像特征点,在后续匹配图像特征点时需要耗费较长时间,导致文本图像的配准效率较低。此外,在通过相匹配的图像特征点确定单应矩阵时,由于相匹配的图像特征点的数量较多,需要采用随机抽样一致性的方式对单应矩阵进行迭代优化,但所选取的相匹配的图像特征点可能并不是文本图像的文本特征点,而是文本图像的背景等干扰因素的图像特征点,导致所确定的单应矩阵的稳定性较差,进而影响文本图像配准的准确性。基于此,本申请的发明人认为,优化传统方法中图像特征点的匹配方式,即保留对文本图像配准最有意义的图像特征点进行匹配,剔除掉对文本图像配准无用的图像特征点,不仅能够提高图像特征点匹配的准确性,而且还能够加快图像特征点的匹配速度,从而能够提高文本图像配准的效率和准确性。本发明实施例提供的文本图像的配准方法的具体实施方式如下:
实施例一
参照图1,示出了本发明实施例一的文本图像的配准方法的步骤流程图。
具体地,本发明实施例提供的文本图像的配准方法,包括以下步骤:
在步骤S101中,对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得所述第一文本图像的第一图像特征点和所述第二文本图像的第二图像特征点。
在本实施例中,所述第一文本图像和所述第二文本图像均可理解为文本字符的图像,例如,题目图像、中文字符图像、英文字符图像等。所述第一图像特征点可理解为第一文本图像中具有典型代表性的像素点,所述第二图像特征点可理解为第二文本图像中具有典型代表性的像素点。图像特征点在计算机视觉的多项任务中有着重要应用,图像特征点的应用场景主要有相机标定、图像拼接、稠密重建和场景理解。目前,有三种图像特征点的获得方法,第一种是人工设计的图像特征点检测算法,如SIFT、SURF、BRIEF等;第二种是使用基于深度学习的方法;第三种是以场景中的人工标记点作为图像特征点。尽管目前基于深度学习的方法能够取得更好的效果,但是人工设计的图像特征点检测算法依然有较好的效果、较快的速度和易实现性在工业界大量应用,尤其是SIFT算法,自从提出以来经久不衰。文本图像上任何一个像素点要成为图像特征点,必须要满足差异性和重复性两个基本要求,差异性是指这个像素点相比于其周围的像素点是显著的,灰度变换明显,如角点、边缘点等,重复性是指这个像素点的特征在不同视角中重复出现,且具有旋转、光度和尺度不变性。
在本实施例中,可采用SIFT、SURF以及BRIEF等这类经典的特征描述方法来获得第一图像特征点和第二图像特征点。本申请的发明人发现,使用不同的特征描述方法来获得第一图像特征点和第二图像特征点的区别在于,表征图像特征点的特征的特征向量的维数不相同,例如,特征向量的维数可为64维或128维等。一般情况下,图像特征点的特征向量的维数越大,那么表征图像特征点的特征的精度越高。当然,还可通过手工标定的方式来获得第一图像特征点和第二图像特征点。具体的获得方法可由本领域技术人员根据实际需要进行选择,本发明实施例对此不作任何限制。
在步骤S102中,对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点,并对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点。
在本实施例中,所述第一文本区域的关键点可理解为所述第一文本区域中关键的具有代表性的像素点,所述第二文本区域的关键点可理解为所述第二文本区域中关键的具有代表性的像素点。
在一些可选实施例中,在对所述第一文本图像的第一文本区域进行关键点检测时,利用关键点检测模型对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点。籍此,利用关键点检测模型对第一文本图像的第一文本区域进行关键点检测,能够准确地获得第一文本区域的关键点。此外,在对所述第二文本图像的第二文本区域进行关键点检测时,利用所述关键点检测模型对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点。籍此,利用关键点检测模型对第二文本图像的第二文本区域进行关键点检测,能够准确地获得第二文本区域的关键点。
在一个具体的例子中,在利用关键点检测模型对所述第一文本图像的第一文本区域进行关键点检测之前,所述方法还包括:通过待训练的所述关键点检测模型,对文本图像样本的文本区域进行关键点检测,获得所述文本图像样本的文本区域的检测关键点;基于所述文本图像样本的文本区域的检测关键点和标注关键点,对待训练的所述关键点检测模型进行训练,获得训练后的所述关键点检测模型。籍此,通过所述文本图像样本的文本区域的检测关键点和标注关键点,能够有效地对待训练的关键点检测模型进行训练。
在一个具体的例子中,所述文本图像样本可理解为样本库中的文本图像,所述检测关键点可理解为关键点检测模型检测的文本图像样本中的文本区域的关键点,所述标注关键点可理解为人工标注的或者机器标注的文本图像样本中的文本区域的关键点。在基于所述文本图像样本的文本区域的检测关键点和标注关键点,对待训练的所述关键点检测模型进行训练时,通过目标损失函数,确定所述检测关键点和所述标注关键点的差异值;基于所述差异值,调整所述关键点检测模型的模型参数。其中,所述目标损失函数可为交叉熵损失函数、softmax损失函数、L1损失函数、L2损失函数等任意损失函数。在调整所述关键点检测模型的模型参数时,可采用反向传播算法,或者随机梯度下降算法来调整所述关键点检测模型的模型参数。
在一个具体的例子中,通过确定所述检测关键点和所述标注关键点之间的差异值,对当前获得的检测关键点进行评估,以作为后续训练所述关键点检测模型的依据。具体地,可将所述差异值反向传输给所述关键点检测模型,从而迭代地训练所述关键点检测模型。所述关键点检测模型的训练是一个迭代的过程,本实施例仅对其中的一次训练过程进行了说明,但本领域技术人员应当明了,对所述关键点检测模型的每次训练都可采用该训练方式,直至完成所述关键点检测模型的训练。
在一些可选实施例中,在对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点时,对所述第一文本区域进行文本特征提取,获得所述第一文本区域的文本特征图;基于所述第一文本区域的文本特征图,获得所述第一文本区域的关键点特征图;根据所述第一文本区域的关键点特征图,获得所述第一文本区域的关键点。籍此,通过所述第一文本区域的文本特征图,能够准确地获得所述第一文本区域的关键点特征图。此外,通过所述第一文本区域的关键点特征图,能够准确地获得所述第一文本区域的关键点。
在一个具体的例子中,在对所述第一文本区域进行文本特征提取,获得所述第一文本区域的文本特征图时,利用所述关键点检测模型,对所述第一文本区域进行文本特征提取,获得所述第一文本区域的多个不同尺度的文本特征图;利用所述关键点检测模型,对所述第一文本区域的多个不同尺度的文本特征图进行上采样,获得所述第一文本区域的多个相同尺度的文本特征图;利用所述关键点检测模型,对所述第一文本区域的多个相同尺度的文本特征图进行串联,获得所述第一文本区域的文本特征图。
在一个具体的例子中,在基于所述第一文本区域的文本特征图,获得所述第一文本区域的关键点特征图时,对所述第一文本区域的文本特征图执行卷积操作和反卷积操作,获得所述第一文本区域的文本框中心点特征图、文本框第一角点特征图和文本框第二角点特征图,其中,文本框第一角点和文本框第二角点互为文本框的对角点。籍此,通过对所述第一文本区域的文本特征图执行卷积操作和反卷积操作,能够准确地获得所述第一文本区域的文本框中心点特征图、文本框第一角点特征图和文本框第二角点特征图。
在一个具体的例子中,在根据所述第一文本区域的关键点特征图,获得所述第一文本区域的关键点时,基于所述第一文本区域的文本框中心点特征图,确定所述第一文本区域的文本框的中心点;基于所述第一文本区域的文本框第一角点特征图,确定所述第一文本区域的文本框的第一角点;基于所述第一文本区域的文本框第二角点特征图,确定所述第一文本区域的文本框的第二角点。其中,所述第一角点可为所述第一文本区域的文本框的左上角点,并且所述第二角点可为所述第一文本区域的文本框的右下角点。可替换地,所述第一角点可为所述第一文本区域的文本框的左下角点,并且所述第二角点可为所述第一文本区域的文本框的右上角点。
在一些可选实施例中,在对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点时,对所述第二文本区域进行文本特征提取,获得所述第二文本区域的文本特征图;基于所述第二文本区域的文本特征图,获得所述第二文本区域的关键点特征图;根据所述第二文本区域的关键点特征图,获得所述第二文本区域的关键点。籍此,通过所述第二文本区域的文本特征图,能够准确地获得所述第二文本区域的关键点特征图。此外,通过所述第二文本区域的关键点特征图,能够准确地获得所述第二文本区域的关键点。
在一个具体的例子中,在对所述第二文本区域进行文本特征提取,获得所述第二文本区域的文本特征图时,利用所述关键点检测模型,对所述第二文本区域进行文本特征提取,获得所述第二文本区域的多个不同尺度的文本特征图;利用所述关键点检测模型,对所述第二文本区域的多个不同尺度的文本特征图进行上采样,获得所述第二文本区域的多个相同尺度的文本特征图;利用所述关键点检测模型,对所述第二文本区域的多个相同尺度的文本特征图进行串联,获得所述第二文本区域的文本特征图。
在一个具体的例子中,在基于所述第二文本区域的文本特征图,获得所述第二文本区域的关键点特征图时,对所述第二文本区域的文本特征图执行卷积操作和反卷积操作,获得所述第二文本区域的文本框中心点特征图、文本框第一角点特征图和文本框第二角点特征图,其中,文本框第一角点和文本框第二角点互为文本框的对角点。籍此,通过对所述第二文本区域的文本特征图执行卷积操作和反卷积操作,能够准确地获得所述第二文本区域的文本框中心点特征图、文本框第一角点特征图和文本框第二角点特征图。
在一个具体的例子中,在根据所述第二文本区域的关键点特征图,获得所述第二文本区域的关键点时,基于所述第二文本区域的文本框中心点特征图,确定所述第二文本区域的文本框的中心点;基于所述第二文本区域的文本框第一角点特征图,确定所述第二文本区域的文本框的第一角点;基于所述第二文本区域的文本框第二角点特征图,确定所述第二文本区域的文本框的第二角点。其中,所述第一角点可为所述第二文本区域的文本框的左上角点,并且所述第二角点可为所述第二文本区域的文本框的右下角点。可替换地,所述第一角点可为所述第二文本区域的文本框的左下角点,并且所述第二角点可为所述第二文本区域的文本框的右上角点。
在一个具体的例子中,所述关键点检测模型可为CenterNet网络。CenterNet网络是一种基于回归的方法,在该方法中,首先设定要检测的文本区域的类别,最后输出通道数量为1+1+1,其中包括检测的文本区域的文本框的中心点,为中心点输出一张得分图(其每个像素点的值在0到1之间,表示这个像素点是文本框的中心点的概率)。除此之外,还有两个通道用来检测中心点所在的文本框的左上角点的得分图(其每个像素点的值在0到1之间,表示这个像素点是文本区域左上角点的概率)和中心点所在的文本框的右下角点的得分图(其每个像素点的值在0到1之间,表示这个像素点是文本区域右下角点的概率)。通过设定阈值在得分图中找到文本区域的中心点、左上角点或者右下角点。具体地,所述中心点的得分图的每个像素点对应一个分数,代表相应的像素点可能作为文本框的中心点的概率值。概率得分图中的分值均为0到1之间的小数,例如可以是0.11,0.34,0.52,0.89等,这里不做穷举。当像素点的得分大于阈值时,认为该像素点是文本框的中心点。所述阈值可以是人工预先设定的,也可以根据文本区域的实际情况,由模型计算后自动进行设定。举例来说,当人工预设得分图的阈值为0.70时,文本区域中得分为0.81、0.79、0.92对应的像素点即为模型检测的文本框的中心点,其他得分较低的像素点则不是中心点。此处阈值的设定还可以设定为其他值,这里不做穷举。所述左上角点的得分图和所述右下角点的得分图均与所述中心点的得分图类似,在此不再赘述。CenterNet网络的特征提取部分可以是Resnet18网络,并且作为CenterNet网络的骨干网络,Resnet18网络由四个残差块串联构建,每个残差块包括若干层卷积操作,第一个残差块输出的特征映射大小为文本图像的1/4,第二个残差块为文本图像的1/8,第三个残差块为文本图像的1/16,第四个残差块为文本图像的1/32,每个残差块输出的特征映射数量都为128,将4组特征映射全部通过插值的方式将其大小变为文本图像的1/4大小并串联,得到一组特征映射,其通道数量为512,接着对上述512通道的特征映射做一次卷积操作,两次反卷积操作,得到与文本图像的大小一致的3(1+1+1)通道输出,第一个通道表示文本框的中心点的得分图(即每个像素点的值在0到1之间,表示这个像素点是文本框的中心点的概率),第二个通道表示文本框的左上角点的得分图,第三个通道表示文本框的右下角点的得分图。
在步骤S103中,基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点,基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点。
在本实施例中,所述第一预设范围和所述第二预设范围可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。
在一些可选实施例中,在基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点时,以所述第一文本区域的关键点为圆心,第一预设距离为半径,确定第一圆形筛选区域;从所述第一图像特征点中筛选出位于所述第一圆形筛选区域内的特征点作为所述第三图像特征点。其中,所述第一预设距离可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,通过确定用于所述第一图像特征点筛选的第一圆形筛选区域,能够准确地获得位于所述第一文本区域的关键点周围的第三图像特征点。
在一些可选实施例中,在基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点时,以所述第一文本区域的关键点为中心,并以预设长度为边长,确定用于所述第一图像特征点筛选的正方形筛选区域;确定位于所述正方形筛选区域内的第一图像特征点为所述第三图像特征点。其中,所述预设长度可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,通过确定用于所述第一图像特征点筛选的正方形筛选区域,能够准确地获得位于所述第一文本区域的关键点周围的第三图像特征点。
在一些可选实施例中,在基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点时,以所述第二文本区域的关键点为圆心,第二预设距离为半径,确定第二圆形筛选区域;从所述第二图像特征点中筛选出位于所述第二圆形筛选区域内的特征点作为所述第四图像特征点。其中,所述第二预设距离可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,通过确定用于所述第二图像特征点筛选的第二圆形筛选区域,能够准确地获得位于所述第二文本区域的关键点周围的第四图像特征点。
在一些可选实施例中,在基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点时,以所述第二文本区域的关键点为中心,并以预设长度为边长,确定用于所述第二图像特征点筛选的正方形筛选区域;确定位于所述正方形筛选区域内的第二图像特征点为所述第四图像特征点。其中,所述预设长度可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,通过确定用于所述第二图像特征点筛选的正方形筛选区域,能够准确地获得位于所述第二文本区域的关键点周围的第四图像特征点。
在步骤S104中,基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果。
在本实施例中,所述第三图像特征点的特征描述数据可为所述第三图像特征点的特征描述符,所述第四图像特征点的特征描述数据可为所述第四图像特征点的特征描述符。其中,所述特征描述符可理解为用于描述图像特征点的特征的符号。
在一些可选实施例中,在基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果时,基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,对所述第三图像特征点与所述第四图像特征点进行匹配,获得至少一个相互匹配的图像特征点对;针对每个图像特征点对,基于图像特征点对中各图像特征点的位置数据,确定位置变换数据;基于所述位置变换数据,对所述图像特征点对中的其中一个图像特征点对应的像素点的位置进行变换,使得所述第一文本图像中的像素点和所述第二文本图像中像素点相互映射。籍此,通过确定位置变换数据,并基于所述位置变换数据,对所述图像特征点对中的其中一个图像特征点对应的像素点的位置进行变换,能够使得所述第一文本图像中的像素点和所述第二文本图像中像素点相互映射。
在一个具体的例子中,在基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,对所述第三图像特征点与所述第四图像特征点进行匹配时,当所述第三图像特征点的特征描述向量与所述第四图像特征点的特征描述向量的相似度大于或等于预设的相似度阈值时,可确定所述第三图像特征点与所述第四图像特征点为匹配的一对图像特征点。这样,所述第三图像特征点与所述第四图像特征点构成了对应的关系。
在一个具体的例子中,在针对每个图像特征点对,基于图像特征点对中各图像特征点的位置数据,确定位置变换数据时,基于图像特征点对中各图像特征点的二维坐标数据,确定位置变换矩阵。其中,所述位置变换矩阵可为单应矩阵,所述基于图像特征点对中各图像特征点的二维坐标数据,确定单应矩阵为现有技术,在此不再赘述。
在一个具体的例子中,在基于所述位置变换数据,对所述图像特征点对中的其中一个图像特征点对应的像素点的位置进行变换时,基于所述单应矩阵,对所述图像特征点对中的其中一个图像特征点对应的像素点的位置进行变换,使得所述第一文本图像中的像素点和所述第二文本图像中像素点相互映射。
在一个具体的例子中,首先收集大量的文本图像样本,并对每张文本图像样本随机地在不同条件下进行多次拍摄,从而得到大量不同背景、不同拍摄角度的文本图像样本对,然后根据文本检测任务的训练数据需求,对这些文本图像样本进行标注。接着,利用改进的Centernet网络构建文本检测模型,与常规的Centernet网络不同,本实施例使用Resnet18网络作为骨干网络,Resnet18网络由4个残差块串联构建,每个残差块包括若干层卷积操作,第一个残差块输出的特征映射大小为原图的1/4,第二个为原图的1/8,第三个为原图的1/16,第四个为原图的1/32,每个残差块输出的特征映射数量都为128,将4组特征映射全部通过插值的方式将其大小变为原图的1/4大小并串联,得到一组特征映射,其通道数量为512,接着对上述512通道的特征映射做一次卷积操作,两次反卷积操作,得到与输入图像大小一致的3通道输出,相比于常规的Centernet网络,第一个通道表示文本框的中心点的得分图(每个像素点的值在0到1之间,表示这个像素点是文本框的中心点的概率),第二个通道表示文本框的左上角点的得分图,第三个通道表示文本框的右下角点的得分图。在本实施例中,并不真正需要将文本检测出来,只是为了寻找关键的具有代表性的像素点,在训练过程中,使用Centernet网络训练中心点时使用的损失函数focal loss对三个通道进行训练。等到训练完成,在使用阶段,对于任意两张待配准的文本图像(分别称为文本图像一和文本图像二),首先对其使用本实施例中改进的Centernet网络进行文本行的中心点检测和角点检测,对得到的三个通道中使用设定阈值的方式得到中心点和角点(即得分图上概率值大于设定阈值就认为是中心点或角点,否则就认为不是),然后分别对文本图像一和文本图像二使用SIFT算法提取图像特征点,并得到每个图像特征点对应的特征描述符(此处以SIFT算法举例,也可以使用其他算法),然后以每张文本图像上每个中心点和每个角点为圆心,以5mm的长度为半径画圆(可以设置其他值),保留在圆范围内的图像特征点,然后进行利用留下的图像特征点的特征描述符进行图像特征点匹配,并根据匹配结果计算单应矩阵,然后将文本图像一映射到文本图像二,从而实现文本图像的配准,这种操作极大的减少了图像特征点的数量,增大了匹配效率,同时由于保留的图像特征点更有效,所以匹配精度也更高,这里每两个角点和一个中心点共同固定了一个文本行,这种筛选图像特征点的方式有效保留了最重要的图像特征点。举例来说,文本图像的背景信息是指比如文本图像放在桌子上拍照,手机终端拿的比较高,这个时候,四角就会有桌子的背景,而这些部分也是有图像特征点的,极有可能影响匹配的精度,同时,文本图像不同于其他图像,没有文字的空白位置的图像特征点也没有多大意义。
根据本发明实施例提供的文本图像的配准方法,对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得第一文本图像的第一图像特征点和第二文本图像的第二图像特征点,并对第一文本图像的第一文本区域和第二文本图像的第二文本区域分别进行关键点检测,再基于第一文本区域和第二文本区域的关键点,从第一图像特征点和第二图像特征点中分别筛选出,位于第一文本区域的关键点的第一预设范围内的第三图像特征点和位于第二文本区域的关键点的第二预设范围内的第四图像特征点,再基于第三图像特征点和第四图像特征点的特征描述数据,对第一文本图像和第二文本图像进行配准。一方面,仅筛选位于文本区域的关键点的预设范围内的部分图像特征点用于文本图像配准,减少了用于文本图像配准的图像特征点的数量,从而可以缩短图像特征点匹配所需的时间,有效提高文本图像配准的效率。另一方面,所筛选到的图像特征点位于文本区域的关键点的预设范围内,保留了对于文本图像配准最有意义的图像特征点,剔除了对于文本图像配准无用的图像特征点,能够提高图像特征点匹配的准确性,进而可以提高文本图像配准的准确性。
本实施例提供的文本图像的配准方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
实施例二
在详细介绍本发明实施例的具体实施方式之前,简要说明一下本发明实施例的技术方案的设计思路。具体地,目前小学数学的练习册由于书写习惯和拍照场景等多种原因,导致其文本图像可能出现背透(同一页纸两边都写字导致一边影响了另一边)、光照不均匀(做完作业灯光下拍摄)、影印和拍摄角度不正等大量问题。如果要对小学数学中的所有题目进行全面批改,则必须建立题目数据库,而如何将题目数据库中题目图像的答题区域与待批改的题目的图像中的答题区域对应上,将对题目批改的准确率有非常大的影响,利用图像配准的方法来将答案区域映射起来进行题目的批改,能够实现很好的效果。但是,这严重依赖于图像配准的效果,而目前的通用的图像配准方法在文本图像上,尤其是变化比较复杂的文本图像上效果不佳,这制约着题目批改的准确率提高。基于此,本申请的发明人认为,优化传统方法中图像特征点的匹配方式,即保留对文本图像配准最有意义的图像特征点进行匹配,剔除掉对文本图像配准无用的图像特征点,不仅能够提高图像特征点匹配的准确性,而且还能够加快图像特征点的匹配速度,从而能够提高文本图像配准的效率和准确性,进而提高题目批改的准确性。本发明实施例提供的题目批改方法的具体实施方式如下:
参照图2,示出了本发明实施例二的题目批改方法的步骤流程图。
具体地,本发明实施例提供的题目批改方法,包括以下步骤:
在步骤S201中,对待批改的第一题目的图像和预设的题目数据库中的第二题目的图像分别进行图像特征提取,获得所述第一题目的图像的第一图像特征点和所述第二题目的图像的第二图像特征点。
在本实施例中,所述待批改的第一题目可为小学数学题、中学数学题、大学数学题、英语题、语文题等,所述第二题目可为小学数学题、中学数学题、大学数学题、英语题、语文题等。
由于步骤S201的具体实施方式与上述实施例一中步骤S101的具体实施方式类似,在此不再赘述。
在步骤S202中,对所述第一题目的图像的第一答题区域进行关键点检测,获得所述第一答题区域的关键点,并对所述第二题目的图像的第二答题区域进行关键点检测,获得所述第二答题区域的关键点。
由于步骤S202的具体实施方式与上述实施例一中步骤S102的具体实施方式类似,在此不再赘述。
在步骤S203中,基于所述第一答题区域的关键点,从所述第一图像特征点中筛选出位于所述第一答题区域的关键点的第一预设范围内的第三图像特征点,基于所述第二答题区域的关键点,从所述第二图像特征点中筛选出位于所述第二答题区域的关键点的第二预设范围内的第四图像特征点。
由于步骤S203的具体实施方式与上述实施例一中步骤S103的具体实施方式类似,在此不再赘述。
在步骤S204中,基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一题目的图像和所述第二题目的图像的配准结果。
由于步骤S204的具体实施方式与上述实施例一中步骤S104的具体实施方式类似,在此不再赘述。
在步骤S205中,基于所述第一题目的图像和所述第二题目的图像的配准结果,对所述第一题目进行批改,获得所述第一题目的批改结果。
在本实施例中,由于所述第一题目的图像和所述第二题目的图像的配准结果是基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,对所述第一题目的图像和所述第二题目的图像进行配准获得的,因此,所述第一题目的图像和所述第二题目的图像的配准结果可理解为所述第一答题区域中的像素点映射到所述第二答题区域中对应的像素点,或者所述第二答题区域中的像素点映射到所述第一答题区域中对应的像素点。在所述第一答题区域与所述第二答题区域映射起来之后,可将所述第一答题区域与所述第二答题区域进行比对,并根据比对结果,对所述第一题目进行批改,以获得所述第一题目的批改结果。具体地,若所述第一答题区域与所述第二答题区域具有相同的答题内容,则所述第一题目作答正确,否则,所述第一题目作答错误。
根据本发明实施例提供的题目批改方法,对待批改的第一题目的图像和第二题目的图像分别进行图像特征提取,获得第一题目的图像的第一图像特征点和第二题目的图像的第二图像特征点,并对第一题目的图像的第一答题区域和第二题目的图像的第二答题区域分别进行关键点检测,再基于第一答题区域和第二答题区域的关键点,从第一图像特征点和第二图像特征点中分别筛选出位于第一答题区域的关键点的第一预设范围内的第三图像特征点和位于第二答题区域的关键点的第二预设范围内的第四图像特征点,再基于第三图像特征点和第四图像特征点的特征描述数据,对第一题目的图像和第二题目的图像进行配准,再基于第一题目的图像和第二题目的图像的配准结果,对第一题目进行批改。一方面,仅筛选位于答题区域的关键点周围的部分图像特征点用于题目图像配准,减少了用于题目图像配准的图像特征点的数量,可以缩短图像特征点匹配所需的时间,有效提高题目图像配准的效率,进而有效提高题目批改的效率。另一方面,所筛选到的图像特征点位于答题区域的关键点周围,保留了对于题目图像配准最有意义的图像特征点,剔除了对于题目图像配准无用的图像特征点,能够提高图像特征点匹配的准确性,进而可以提高题目图像配准的准确性,进而有效提高题目批改的准确率。
本实施例提供的题目批改方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
实施例三
图3示出了本发明实施例三的文本图像的配准装置的结构示意图,参见图3,该装置包括:
特征提取模块301,用于对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得所述第一文本图像的第一图像特征点和所述第二文本图像的第二图像特征点;
关键点检测模块302,用于对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点,并对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点;
筛选模块303,用于基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点,基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点;
配准模块304,用于基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果。
在本发明实施例中,对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得第一文本图像的第一图像特征点和第二文本图像的第二图像特征点,并对第一文本图像的第一文本区域和第二文本图像的第二文本区域分别进行关键点检测,再基于第一文本区域和第二文本区域的关键点,从第一图像特征点和第二图像特征点中分别筛选出,位于第一文本区域的关键点的第一预设范围内的第三图像特征点和位于第二文本区域的关键点的第二预设范围内的第四图像特征点,再基于第三图像特征点和第四图像特征点的特征描述数据,对第一文本图像和第二文本图像进行配准。一方面,仅筛选位于文本区域的关键点的预设范围内的部分图像特征点用于文本图像配准,减少了用于文本图像配准的图像特征点的数量,从而可以缩短图像特征点匹配所需的时间,有效提高文本图像配准的效率。另一方面,所筛选到的图像特征点位于文本区域的关键点的预设范围内,保留了对于文本图像配准最有意义的图像特征点,剔除了对于文本图像配准无用的图像特征点,能够提高图像特征点匹配的准确性,进而可以提高文本图像配准的准确性。
在一种可能的实现方式中,所述关键点检测模块302,具体用于利用关键点检测模型对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点;以及,利用所述关键点检测模型对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点。
在一种可能的实现方式中,所述关键点检测模块302,具体用于对所述第一文本区域进行文本特征提取,获得所述第一文本区域的文本特征图;基于所述第一文本区域的文本特征图,获得所述第一文本区域的关键点特征图;根据所述第一文本区域的关键点特征图,获得所述第一文本区域的关键点。
在一种可能的实现方式中,所述关键点检测模块302,具体用于在基于所述第一文本区域的文本特征图,获得所述第一文本区域的关键点特征图时,对所述第一文本区域的文本特征图执行卷积操作和反卷积操作,获得所述第一文本区域的文本框中心点特征图、文本框第一角点特征图和文本框第二角点特征图,其中,文本框第一角点和文本框第二角点互为文本框的对角点。
在一种可能的实现方式中,所述筛选模块303,具体用于在基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点时,以所述第一文本区域的关键点为圆心,第一预设距离为半径,确定第一圆形筛选区域;从所述第一图像特征点中筛选出位于所述第一圆形筛选区域内的特征点作为所述第三图像特征点。
在一种可能的实现方式中,所述筛选模块303,具体用于在基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点时,以所述第二文本区域的关键点为圆心,第二预设距离为半径,确定第二圆形筛选区域;从所述第二图像特征点中筛选出位于所述第二圆形筛选区域内的特征点作为所述第四图像特征点。
在一种可能的实现方式中,所述配准模块304,具体用于在基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果时,基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,对所述第三图像特征点与所述第四图像特征点进行匹配,获得至少一个相互匹配的图像特征点对;针对每个图像特征点对,基于图像特征点对中各图像特征点的位置数据,确定位置变换数据;基于所述位置变换数据,对所述图像特征点对中的其中一个图像特征点对应的像素点的位置进行变换,使得所述第一文本图像中的像素点和所述第二文本图像中像素点相互映射。
实施例四
图4为本发明实施例四中电子设备的硬件结构;如图4所示,该电子设备400可以包括:处理器(processor)402、通信接口(Communications Interface)408、存储器(memory)404、以及通信总线406。
其中:
处理器402、通信接口408、以及存储器404通过通信总线406完成相互间的通信。
通信接口408,用于与其它电子设备或服务器进行通信。
处理器402,用于执行程序410,具体可以执行上述文本图像的配准方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器404,用于存放程序410。存储器404可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得所述第一文本图像的第一图像特征点和所述第二文本图像的第二图像特征点;对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点,并对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点;基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点,基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点;基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果。
在一种可选的实施方式中,程序410还用于使得处理器402利用关键点检测模型对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点;以及,利用所述关键点检测模型对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点。
在一种可选的实施方式中,程序410还用于使得处理器402在对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点时,对所述第一文本区域进行文本特征提取,获得所述第一文本区域的文本特征图;基于所述第一文本区域的文本特征图,获得所述第一文本区域的关键点特征图;根据所述第一文本区域的关键点特征图,获得所述第一文本区域的关键点。
在一种可选的实施方式中,程序410还用于使得处理器402在基于所述第一文本区域的文本特征图,获得所述第一文本区域的关键点特征图时,对所述第一文本区域的文本特征图执行卷积操作和反卷积操作,获得所述第一文本区域的文本框中心点特征图、文本框第一角点特征图和文本框第二角点特征图,其中,文本框第一角点和文本框第二角点互为文本框的对角点。
在一种可选的实施方式中,程序410还用于使得处理器402在基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点时,以所述第一文本区域的关键点为圆心,第一预设距离为半径,确定第一圆形筛选区域;从所述第一图像特征点中筛选出位于所述第一圆形筛选区域内的特征点作为所述第三图像特征点。
在一种可选的实施方式中,程序410还用于使得处理器402在基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点时,以所述第二文本区域的关键点为圆心,第二预设距离为半径,确定第二圆形筛选区域;从所述第二图像特征点中筛选出位于所述第二圆形筛选区域内的特征点作为所述第四图像特征点。
在一种可选的实施方式中,程序410还用于使得处理器402在基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果时,基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,对所述第三图像特征点与所述第四图像特征点进行匹配,获得至少一个相互匹配的图像特征点对;针对每个图像特征点对,基于图像特征点对中各图像特征点的位置数据,确定位置变换数据;基于所述位置变换数据,对所述图像特征点对中的其中一个图像特征点对应的像素点的位置进行变换,使得所述第一文本图像中的像素点和所述第二文本图像中像素点相互映射。
程序410中各步骤的具体实现可以参见上述文本图像的配准方法实施例中的相应步骤中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得第一文本图像的第一图像特征点和第二文本图像的第二图像特征点,并对第一文本图像的第一文本区域和第二文本图像的第二文本区域分别进行关键点检测,再基于第一文本区域和第二文本区域的关键点,从第一图像特征点和第二图像特征点中分别筛选出,位于第一文本区域的关键点的第一预设范围内的第三图像特征点和位于第二文本区域的关键点的第二预设范围内的第四图像特征点,再基于第三图像特征点和第四图像特征点的特征描述数据,对第一文本图像和第二文本图像进行配准。一方面,仅筛选位于文本区域的关键点的预设范围内的部分图像特征点用于文本图像配准,减少了用于文本图像配准的图像特征点的数量,从而可以缩短图像特征点匹配所需的时间,有效提高文本图像配准的效率。另一方面,所筛选到的图像特征点位于文本区域的关键点的预设范围内,保留了对于文本图像配准最有意义的图像特征点,剔除了对于文本图像配准无用的图像特征点,能够提高图像特征点匹配的准确性,进而可以提高文本图像配准的准确性。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明实施例中的方法中限定的上述功能。需要说明的是,本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明实施例中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括特征提取模块、关键点检测模块、筛选模块和配准模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述处理器执行根据上述实施例中所描述的文本图像的配准方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得所述第一文本图像的第一图像特征点和所述第二文本图像的第二图像特征点;对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点,并对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点;基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设范围内的第三图像特征点,基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设范围内的第四图像特征点;基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果。
作为另一方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据上述实施例中所描述的文本图像的配准方法。
在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种文本图像的配准方法,其特征在于,所述方法包括:
对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得所述第一文本图像的第一图像特征点和所述第二文本图像的第二图像特征点;
对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点,并对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点;
基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设筛选区域范围内的第三图像特征点,基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设筛选区域范围内的第四图像特征点;
基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果。
2.根据权利要求1所述的文本图像的配准方法,其特征在于,利用关键点检测模型对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点;以及,
利用所述关键点检测模型对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点。
3.根据权利要求2所述的文本图像的配准方法,其特征在于,所述对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点,包括:
对所述第一文本区域进行文本特征提取,获得所述第一文本区域的文本特征图;
基于所述第一文本区域的文本特征图,获得所述第一文本区域的关键点特征图;
根据所述第一文本区域的关键点特征图,获得所述第一文本区域的关键点。
4.根据权利要求3所述的文本图像的配准方法,其特征在于,所述基于所述第一文本区域的文本特征图,获得所述第一文本区域的关键点特征图,包括:
对所述第一文本区域的文本特征图执行卷积操作和反卷积操作,获得所述第一文本区域的文本框中心点特征图、文本框第一角点特征图和文本框第二角点特征图,其中,文本框第一角点和文本框第二角点互为文本框的对角点。
5.根据权利要求1所述的文本图像的配准方法,其特征在于,所述基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设筛选区域范围内的第三图像特征点,包括:
以所述第一文本区域的关键点为圆心,第一预设距离为半径,确定第一圆形筛选区域;
从所述第一图像特征点中筛选出位于所述第一圆形筛选区域内的特征点作为所述第三图像特征点。
6.根据权利要求1所述的文本图像的配准方法,其特征在于,所述基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设筛选区域范围内的第四图像特征点,包括:
以所述第二文本区域的关键点为圆心,第二预设距离为半径,确定第二圆形筛选区域;
从所述第二图像特征点中筛选出位于所述第二圆形筛选区域内的特征点作为所述第四图像特征点。
7.根据权利要求1所述的文本图像的配准方法,其特征在于,所述基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果,包括:
基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,对所述第三图像特征点与所述第四图像特征点进行匹配,获得至少一个相互匹配的图像特征点对;
针对每个图像特征点对,基于图像特征点对中各图像特征点的位置数据,确定位置变换数据;
基于所述位置变换数据,对所述图像特征点对中的其中一个图像特征点对应的像素点的位置进行变换,使得所述第一文本图像中的像素点和所述第二文本图像中像素点相互映射。
8.一种文本图像的配准装置,其特征在于,所述装置包括:
特征提取模块,用于对待配准的第一文本图像和第二文本图像分别进行图像特征提取,获得所述第一文本图像的第一图像特征点和所述第二文本图像的第二图像特征点;
关键点检测模块,用于对所述第一文本图像的第一文本区域进行关键点检测,获得所述第一文本区域的关键点,并对所述第二文本图像的第二文本区域进行关键点检测,获得所述第二文本区域的关键点;
筛选模块,用于基于所述第一文本区域的关键点,从所述第一图像特征点中筛选出位于所述第一文本区域的关键点的第一预设筛选区域范围内的第三图像特征点,基于所述第二文本区域的关键点,从所述第二图像特征点中筛选出位于所述第二文本区域的关键点的第二预设筛选区域范围内的第四图像特征点;
配准模块,用于基于所述第三图像特征点的特征描述数据和所述第四图像特征点的特征描述数据,获得所述第一文本图像和所述第二文本图像的配准结果。
9.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
CN202110639946.2A 2021-06-09 2021-06-09 文本图像配准方法、装置、设备、存储介质 Active CN113096170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110639946.2A CN113096170B (zh) 2021-06-09 2021-06-09 文本图像配准方法、装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110639946.2A CN113096170B (zh) 2021-06-09 2021-06-09 文本图像配准方法、装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN113096170A CN113096170A (zh) 2021-07-09
CN113096170B true CN113096170B (zh) 2022-01-25

Family

ID=76664488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110639946.2A Active CN113096170B (zh) 2021-06-09 2021-06-09 文本图像配准方法、装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN113096170B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091123A (zh) * 2019-12-02 2020-05-01 上海眼控科技股份有限公司 文本区域检测方法及设备
CN111968160A (zh) * 2020-07-15 2020-11-20 上海联影智能医疗科技有限公司 图像匹配方法和存储介质
CN112001389A (zh) * 2020-10-29 2020-11-27 北京淇瑀信息科技有限公司 一种多场景视频中文本信息识别方法、装置及电子设备
CN112241739A (zh) * 2020-12-17 2021-01-19 北京沃东天骏信息技术有限公司 识别文本错误的方法、装置、设备和计算机可读介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369170A (zh) * 2017-07-04 2017-11-21 云南师范大学 图像配准处理方法和装置
CN109960988A (zh) * 2017-12-26 2019-07-02 浙江宇视科技有限公司 图像分析方法、装置、电子设备及可读存储介质
CN111144175B (zh) * 2018-11-05 2023-04-18 杭州海康威视数字技术股份有限公司 一种图像检测方法及装置
CN109961103B (zh) * 2019-04-02 2020-10-27 北京迈格威科技有限公司 特征提取模型的训练方法、图像特征的提取方法及装置
CN111768393A (zh) * 2020-07-01 2020-10-13 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091123A (zh) * 2019-12-02 2020-05-01 上海眼控科技股份有限公司 文本区域检测方法及设备
CN111968160A (zh) * 2020-07-15 2020-11-20 上海联影智能医疗科技有限公司 图像匹配方法和存储介质
CN112001389A (zh) * 2020-10-29 2020-11-27 北京淇瑀信息科技有限公司 一种多场景视频中文本信息识别方法、装置及电子设备
CN112241739A (zh) * 2020-12-17 2021-01-19 北京沃东天骏信息技术有限公司 识别文本错误的方法、装置、设备和计算机可读介质

Also Published As

Publication number Publication date
CN113096170A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
WO2022257578A1 (zh) 用于识别文本的方法和装置
CN111369427B (zh) 图像处理方法、装置、可读介质和电子设备
CN110136198B (zh) 图像处理方法及其装置、设备和存储介质
CN109583389B (zh) 绘本识别方法及装置
CN112132143B (zh) 数据处理方法、电子设备及计算机可读介质
CN106462572A (zh) 用于分布式光学字符识别和分布式机器语言翻译的技术
CN110162657B (zh) 一种基于高层语义特征和颜色特征的图像检索方法及***
CN112232341B (zh) 文本检测方法、电子设备及计算机可读介质
CN112883968B (zh) 图像字符识别方法、装置、介质及电子设备
CN110659639B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN113239925A (zh) 一种文本检测模型训练方法、文本检测方法及装置、设备
CN110969641A (zh) 图像处理方法和装置
CN113326766B (zh) 文本检测模型的训练方法及装置、文本检测方法及装置
CN113516697A (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN110674813B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN111027533B (zh) 一种点读坐标的变换方法、***、终端设备及存储介质
CN112287734A (zh) 碎屏检测及用于碎屏检测的卷积神经网络的训练方法
CN113096170B (zh) 文本图像配准方法、装置、设备、存储介质
CN113128470B (zh) 笔划识别方法、装置、可读介质及电子设备
CN115393868B (zh) 文本检测方法、装置、电子设备和存储介质
CN113065480B (zh) 书法作品风格的识别方法、装置、电子装置和存储介质
CN108133205B (zh) 复制图像中文本内容的方法及装置
CN115273123A (zh) 一种票据识别方法、装置、设备及计算机存储介质
CN114495080A (zh) 字体识别方法、装置、可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant