CN115830604A - 面单图像矫正方法、装置、电子设备及可读存储介质 - Google Patents

面单图像矫正方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN115830604A
CN115830604A CN202111085527.5A CN202111085527A CN115830604A CN 115830604 A CN115830604 A CN 115830604A CN 202111085527 A CN202111085527 A CN 202111085527A CN 115830604 A CN115830604 A CN 115830604A
Authority
CN
China
Prior art keywords
coordinates
corrected
single image
prediction
surface sheet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111085527.5A
Other languages
English (en)
Inventor
刘文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN202111085527.5A priority Critical patent/CN115830604A/zh
Publication of CN115830604A publication Critical patent/CN115830604A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请提供一种面单图像矫正方法、装置、电子设备及计算机可读存储介质。该面单图像矫正方法包括:获取所述待矫正面单图像中目标面单的面单中心点的坐标;获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量;根据所述目标角点标记偏移量和所述面单中心点的坐标,确定所述目标面单的四个顶点的角点标记坐标;基于所述目标面单的四个顶点的角点标记坐标对所述待矫正面单图像进行矫正,得到所述待矫正面单图像的矫正后面单图像。本申请中无需额外增加分类分支进行朝向、倾斜角度等信息的判定,提高了面单的定位效率、进而提高了面单信息的识别效率。

Description

面单图像矫正方法、装置、电子设备及可读存储介质
技术领域
本申请涉及图像处理技术领域,具体涉及一种面单图像矫正方法、装置、电子设备及计算机可读存储介质。
背景技术
面单是用于记录各种信息的单据,例如,快递面单是快递行业在运送货物的过程中用以记录发件人、收件人以及产品重量、价格等相关信息的单据。为了通过计算机自动识别出面单中记录的各种信息,通常需要基于面单图像进行面单检测并矫正。
现有技术中通过先对面单进行定位检测,再通过一个分类分支判断定位到的面单的倾斜角度,再基于面单的倾斜角度对面单进行矫正,以便于后续的信息识别。
但是,增加分类分支会严重降低面单的定位效率,进而影响面单信息识别的效率。
发明内容
本申请提供一种面单图像矫正方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术中需要增加分类分支判断面单的倾斜角度导致面单的定位效率降低,进而导致面单信息识别效率降低的问题。
第一方面,本申请提供一种面单图像矫正方法,所述方法包括:
获取待矫正面单图像;
获取所述待矫正面单图像中目标面单的面单中心点的坐标;
获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量;
根据所述目标角点标记偏移量和所述面单中心点的坐标,确定所述目标面单的四个顶点的角点标记坐标,其中,所述角点标记坐标用于指示所述目标面单的左上角点、左下角点、右下角点和右上角点;
基于所述目标面单的四个顶点的角点标记坐标对所述待矫正面单图像进行矫正,得到所述待矫正面单图像的矫正后面单图像。
第二方面,本申请提供一种面单图像矫正装置,所述面单图像矫正装置包括:
获取单元,用于获取待矫正面单图像;
坐标预测单元,用于获取所述待矫正面单图像中目标面单的面单中心点的坐标;
所述坐标预测单元,还用于获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量;
所述坐标预测单元,还用于根据所述目标角点标记偏移量和所述面单中心点的坐标,确定所述目标面单的四个顶点的角点标记坐标,其中,所述角点标记坐标用于指示所述目标面单的左上角点、左下角点、右下角点和右上角点;
矫正单元,用于基于所述目标面单的四个顶点的角点标记坐标对所述待矫正面单图像进行矫正,得到所述待矫正面单图像的矫正后面单图像。
第三方面,本申请还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请提供的任一种面单图像矫正方法中的步骤。
第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的面单图像矫正方法中的步骤。
本申请通过获取并根据待矫正面单图像中目标面单的面单中心点的坐标、目标面单的四个顶点与面单中心点的目标角点标记偏移量,确定目标面单的四个顶点的角点标记坐标,对待矫正面单图像进行矫正得到矫正后面单图像。一方面,由于角点标记坐标携带了角点标记信息,因此可以确定目标面单的左上角点、左下角点、右下角点和右上角点所在位置,进而可以反映出目标面单的朝向、倾斜角度等信息;因此,基于角点标记坐标对待矫正面单图像进行矫正,可以保证目标面单恢复至正确的朝向,从而精准地对待矫正面单图像进行矫正。另一方面,由于只需要预测目标面单的四个顶点的角点标记坐标,即可反映出目标面单的朝向、倾斜角度等信息,因此在检测出目标面单的同时可以得到目标面单的朝向、倾斜角度等信息,无需额外增加分类分支进行朝向、倾斜角度等信息的判定,从而减小分类的数据处理量;因此,相对于现有技术检测加分类分支的算法,本申请实施例提高了面单的定位效率、进而提高了面单信息的识别效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例所提供的面单图像矫正检测***的场景示意图;
图2是本申请实施例提供的面单图像矫正方法的一种流程示意图;
图3是本申请实施例中提供的偏移量的一种说明示意图;
图4是本申请实施例中提供的最小包围矩形的一种说明示意图;
图5是本申请实施例中提供的预测模型的训练过程的一种流程示意图;
图6是本申请实施例中提供的预测模型的一种网络结构示意图;
图7是本申请实施例中提供的面单图像矫正装置的一个实施例结构示意图;
图8是本申请实施例中提供的电子设备的一个实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的过程进行详细阐述,以避免不必要的细节使本申请实施例的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请实施例所公开的原理和特征的最广范围相一致。
本申请实施例面单图像矫正方法的执行主体可以为本申请实施例提供的面单图像矫正装置,或者集成了该面单图像矫正装置的服务器设备、物理主机或者用户设备(UserEquipment,UE)等不同类型的电子设备,其中,面单图像矫正装置可以采用硬件或者软件的方式实现,UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant,PDA)等终端设备。
该电子设备可以采用单独运行的工作方式,或者也可以采用设备集群的工作方式,通过应用本申请实施例提供的面单图像矫正方法,无需额外增加分类分支进行朝向、倾斜角度等信息的判定,提高了面单的定位效率、进而提高了面单信息的识别效率。
参见图1,图1是本申请实施例所提供的面单图像矫正***的场景示意图。其中,该面单图像矫正***可以包括电子设备100,电子设备100中集成有面单图像矫正装置。例如,该电子设备可以获取所述待矫正面单图像中目标面单的面单中心点的坐标;获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量;根据所述目标角点标记偏移量和所述面单中心点的坐标,确定所述目标面单的四个顶点的角点标记坐标;基于所述目标面单的四个顶点的角点标记坐标对所述待矫正面单图像进行矫正,得到所述待矫正面单图像的矫正后面单图像。
另外,如图1所示,该面单图像矫正***还可以包括存储器200,用于存储数据,如存储图像数据、视频数据。
需要说明的是,图1所示的面单图像矫正***的场景示意图仅仅是一个示例,本申请实施例描述的面单图像矫正***以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着面单图像矫正***的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
下面,开始介绍本申请实施例提供的面单图像矫正方法,本申请实施例中以电子设备作为执行主体,为了简化与便于描述,后续方法实施例中将省略该执行主体。
参照图2,图2是本申请实施例提供的面单图像矫正方法的一种流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。该面单图像矫正方法包括步骤201~205,其中:
201、获取待矫正面单图像。
其中,面单是用于记录各种信息的单据,例如快递面单、出货单。
其中,待矫正面单图像为包含面单的图像,如包含快递面单的图像。
步骤201中,获取待矫正面单图像的方式有多种,示例性地,包括:
(1)在实际应用时,电子设备在硬件上可以集成摄像头,通过该摄像头实时拍摄得到面单的视频帧或图像,以作为待矫正面单图像。
(2)也可以通过其他终端的摄像头实时拍摄得到面单的视频帧或图像,例如快件分拣设备的摄像头在进行快件分拣时拍摄得到面单的视频帧或图像,电子设备与其他终端的摄像头建立网络连接。并根据该网络连接,从其他终端的摄像头在线获取其他终端的摄像头拍摄得到的面单的视频帧或图像,以作为待矫正面单图像。
(3)电子设备也可以从存储有摄像头(包括电子设备集成的摄像头、或者其他终端的摄像头)拍摄得到的面单图像的相关存储介质,读取出摄像头拍摄得到的面单图像,作为待矫正面单图像。
(4)读取预先采集并存储在电子设备内部的面单视频帧或图像,作为待矫正面单图像。
此处待矫正面单图像的获取方式仅为举例,不以此为限。
202、获取所述待矫正面单图像中目标面单的面单中心点的坐标。
目标面单是待矫正面单图像中的面单。
在一些实施例中,可以通过本申请实施例中提供的预先训练好的预测模型,基于待矫正面单图像,预测中目标面单的面单中心点的坐标。“通过训练好的预测模型,基于待矫正面单图像,预测中目标面单的面单中心点的坐标”在后文中介绍预测模型时将详细介绍,此处不再赘述。
在一些实施例中,可以基于深度卷积神经网络预测待矫正面单图像的中心点热力图,并基于中心点热力图获取置信度大于阈值置信度阈值的像素点,作为待矫正面单图像中目标面单的面单中心点,从而得到面单中心点的坐标。
203、获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量。
其中,目标面单的四个顶点是指目标面单正向放置时的左上角点、左下角点、右下角点和右上角点。
为了简化表述,后文中,将目标面单正向放置时的左上角点、左下角点、右下角点、右上角点,分别称为目标面单的左上角点、目标面单的左下角点、目标面单的右下角点、目标面单的右上角点。
其中,面单中心点是指目标面单的中心点。
其中,偏移量为目标面单的顶点相对于面单中心点的位置偏移量。其中,位置偏移量可以通过在坐标轴方向上的偏移量来表示,比如,目标面单正向放置时的左上角点相对于面单中心点的位置偏移量为:目标面单的左上角点相对于面单中心点在x轴方向的偏移量和在y轴方向的偏移量。
其中,目标角点标记偏移量是带有角点标记信息的、目标面单的顶点相对于面单中心点的偏移量。
此处,角点标记信息是目标面单的左上角点、左下角点、右下角点和右上角点的指示信息。角点标记信息可以用于指示目标角点标记偏移量是目标面单的左上角点、左下角点、右下角点和右上角点中的哪个角点相对于面单中心点的偏移量。比如步骤203中确定目标面单的四个顶点分别与面单中心点的目标角点标记偏移量为:带有“左上角”、“左下角”、“右上角”、“右下角”文字标记的偏移量。
为了方便理解,请参考图3,图3是本申请实施例中提供的偏移量的一种说明示意图。
例如,以待矫正面单图像的左下角点为坐标原点、以左下角点指向右下角点的方向为x轴方向、以左下角点指向左上角点的方向为y轴方向,建立直角坐标系。目标面单的面单中心点的坐标为(x0,y0),目标面单的左上角点为a1、左下角点为a2、右下角点为a3、右上角点为a4,目标面单的左上角点a1坐标为(x1,y1)、左下角点a2坐标为(x2,y2)、右下角点a3坐标为(x3,y3)、右上角点a4坐标为(x4,y4)。
目标面单的左上角点a1相对于面单中心点的位置偏移量为左上角点a1相对于面单中心点O在x轴方向的偏移量(x0-x1)和在y轴方向的偏移量(y0-y1)。
目标面单的左下角点a2相对于面单中心点的位置偏移量为左下角点a2相对于面单中心点O在x轴方向的偏移量(x0-x2)和在y轴方向的偏移量(y0-y2)。
目标面单的右下角点a3相对于面单中心点的位置偏移量为右下角点a3相对于面单中心点O在x轴方向的偏移量(x0-x3)和在y轴方向的偏移量(y0-y3)。
目标面单的右上角点a4相对于面单中心点的位置偏移量为右上角点a4相对于面单中心点O在x轴方向的偏移量(x0-x4)和在y轴方向的偏移量(y0-y4)。
在一些实施例中,可以通过预先训练好的预测模型,基于待矫正面单图像,预测目标面单的四个顶点分别与面单中心点的目标角点标记偏移量。“通过预先训练好的预测模型,基于待矫正面单图像,预测目标面单的四个顶点分别与面单中心点的目标角点标记偏移量”在后文中介绍预测模型时将详细介绍,此处不再赘述。
204、根据所述目标角点标记偏移量和所述面单中心点的坐标,确定所述目标面单的四个顶点的角点标记坐标。
其中,目标面单的四个顶点的角点标记坐标是指带有角点标记信息的坐标。其中,角点标记信息可以是文字、数字或符号,比如步骤204中确定目标面单的四个顶点的角点标记坐标分别为带有“左上角”、“左下角”、“右上角”、“右下角”文字标记的坐标。
例如,目标角点标记偏移量为“左上角”(△x1,△y1)、“左下角”(△x2,△y2)、“右上角”(△x3,△y3)、“右下角”(△x4,△y4),面单中心点的坐标为(x0,y0),则可以确定目标面单的四个顶点的角点标记坐标为:“左上角”(△x1+x0,△y1+y0)、“左下角”(△x2+x0,△y2+y0)、“右上角”(△x3+x0,△y3+y0)、“右下角”(△x4+x0,△y4+y0)。
步骤204中,在确定目标面单的四个顶点的角点标记坐标后,即可在待矫正面单图像中的对应进行位置进行目标面单的四个顶点标记,并将四个顶点连接起来形成一个四边形,从而得到目标面单的检测结果。其中,目标面单的检测结果用于指示目标面单的所在区域、以及目标面单的左上角点、左下角点、右下角点、右上角点的坐标,四边形所在的区域即为目标面单的所在区域。
205、基于所述目标面单的四个顶点的角点标记坐标对所述待矫正面单图像进行矫正,得到所述待矫正面单图像的矫正后面单图像。
由于目标面单的四个顶点的角点标记坐标可以反映出目标面单的倾斜角度和朝向等重要信息。
在一些实施例中,可以按照目标面单的四个顶点的角点标记坐标,对待矫正面单图像进行旋转,使得目标面单的左上角点、左下角点、右下角点、右上角点恢复至正向放置时的状态,从而得到矫正后面单图像。
进一步地,也可以基于步骤204中目标面单的检测结果,从待矫正面单图像个截取目标面单的区域图像,再对目标面单的区域图像进行旋转,使得目标面单的左上角点、左下角点、右下角点、右上角点恢复至正向放置时的状态,从而得到矫正后面单图像。
在一些实施例中,会基于步骤204中目标面单的检测结果,对目标面单的区域图像进行透视变换操作,以使得目标面单恢复正确的朝向、并在图像中恢复最原始真实的元素线性关系如使得目标面单的对边恢复平行关系。
由于拍摄角度角度影响,会导致目标面单原本是平行的两条直线会出现不平行的情况,即步骤204中检测得到目标面单的四个顶点的角点标记坐标所构成的四边形为非矩形。而面单一般为矩形,透视变换矫正后的面单图像也为矩形,如果直接通过透视变换将非矩形覆盖的面单区域转换成为矫正后的面单图像,则可能会导致面单内的条码和文字发生明显畸变,不利于后续的识别。为此,可以通过获取目标面单的四个顶点的最小包围矩形,并基于最小包围矩形的四个矩形顶点的坐标与目标面单的四个顶点的角点标记坐标,确定待矫正图像的透视变换矩阵进行透视变化。因此,在一些实施例中,步骤205具体可以包括步骤2051~步骤2053:
2051、基于所述目标面单的四个顶点的角点标记坐标,获取所述目标面单的四个顶点的最小包围矩形、以及所述最小包围矩形的四个矩形顶点的坐标。
其中,最小包围矩形是指目标面单的四个顶点的最小外接矩形。如图4所示,图4是本申请实施例中提供的最小包围矩形的一种说明示意图,目标面单的四个顶点分别b1、b2、b3、b4,在某些情况下,由于拍摄角度角度影响,会导致目标面单原本是平行的两条直线会出现不平行的情况,因此需要进行透视变化,使得矫正后的图像中原本是平行的两条直线恢复平行,以便于后续的识别。图4中,矩形虚线框表示最小包围矩形。
其中,目标面单的四个顶点的最小包围矩形的四个顶点即为最小包围矩形的四个矩形顶点。
示例性地,在确定目标面单的四个顶点的角点标记坐标后,可以根据目标面单的四个顶点的角点标记坐标,确定目标面单的矫正前面单区域的四边形,如图4中b1、b2、b3、b4所围成的四边形区域所示。并根据一些多边形的最小外接矩形算法,例如旋转法、最佳拟合直线算法,求解矫正前面单区域的四边形的最小外接矩形,得到目标面单的四个顶点的最小包围矩形。
在确定目标面单的四个顶点的最小包围矩形,获取最小包围矩形的四个顶点坐标,得到最小包围矩形的四个矩形顶点的坐标。
此处,“多边形的最小外接矩形算法”仅为举例,实际上“多边形的最小外接矩形算法”可以是此处所提及的旋转法、最佳拟合直线算法,也可以是其他的“多边形的最小外接矩形算法”,或者是未来出现的“多边形的最小外接矩形算法”,此处对“多边形的最小外接矩形算法”不做限制。
2052、基于所述四个矩形顶点的坐标和所述目标面单的四个顶点的角点标记坐标,确定所述待矫正图像的透视变换矩阵。
透视变换(Perspective Transformation)的本质是将图像投影到一个新的视平面,其通用变换公式为:
Figure BDA0003265522300000101
其中,(u,v)为原始图像像素坐标,(x=x’/w’,y=y’/w’)为变换之后的图像像素坐标。透视变换矩阵如下:
Figure BDA0003265522300000102
其中,
Figure BDA0003265522300000103
表示图像线性变换;T2=[a13 a23]T,用于产生图像线性变换;T3=[a31 a32],表示图像平移。
仿射变换(Affine Transformation)可以理解为透视变换的特殊形式。透视变换的数学表达式为:
Figure BDA0003265522300000106
Figure BDA0003265522300000107
所以,给定透视变换对应的四对像素点坐标,即可求得透视变换矩阵;反之,给定透视变换矩阵,即可对图像或像素点坐标完成透视变换。
本申请实施例中,通过基于四个矩形顶点的坐标和目标面单的四个顶点的角点标记坐标,获取转换前后的四对像素点坐标,求得透视变换矩阵。
2053、基于所述透视变换矩阵,对所述待矫正面单图像中所述最小包围矩形的区域进行透视变换,得到所述待矫正面单图像的矫正后面单图像。
具体地,进行透视变换时,可以基于透视变换矩阵,对最小包围矩形的区域的像素点坐标矩阵进行转换,得到最小包围矩形的区域透视变换后的像素点坐标矩阵,以作为矫正后面单的区域所在像素点,从而得到最小包围矩形的区域透视变换后图像。
在一些实施例中,可以从待矫正面单图像中截取最小包围矩形的区域图像进行透视变换,得到待矫正面单图像的矫正后面单图像。
其中,可以通过最小点距离匹配的方法,确定最小包围矩形四个矩形顶点与目标面单的四个顶点的位置对应关系,从而得到四个矩形顶点的角点标记信息。例如,计算出四个矩形顶点中与目标面单(的四个顶点中)的左上角点距离最小的点,并将该点标记为目标面单的左上角点。基于四个矩形顶点的坐标与目标面单的四个顶点的坐标,计算出四个矩形顶点中与目标面单(的四个顶点中)的左下角点距离最小的点,并将该点标记为目标面单的左下角点。计算出四个矩形顶点中与目标面单(的四个顶点中)的右上角点距离最小的点,并将该点标记为目标面单的右上角点。计算出四个矩形顶点中与目标面单(的四个顶点中)的右下角点距离最小的点,并将该点标记为目标面单的右下角点。
通过计算目标面单的四个顶点的最小包围矩形,基于最小包围矩形的区域进行透视变换,第一方面,避免了目标面单的四个顶点的角点标记坐标所构成的四边形为非矩形时,直接进行透视变换将非矩形覆盖的面单区域转换成为矫正后的矩形面单图像,而导致面单内的条码和文字发生明显畸变不易于后续识别的问题。第二方面,由于是基于最小包围矩形的区域进行透视变换,最小包围矩形的区域内像素点相对较少,在保证面单内的条码和文字不发生明显畸变的情况下,减少了进行透视变换时的数据处理量。第三方面,在基于最小包围矩形的区域进行透视变换过程中会对待矫正面单图像进行旋转操作,保证透视变换后依旧可以确定目标面单的朝向信息。
由以上内容可以看出,通过获取并根据待矫正面单图像中目标面单的面单中心点的坐标、目标面单的四个顶点与面单中心点的目标角点标记偏移量,确定目标面单的四个顶点的角点标记坐标,对待矫正面单图像进行矫正得到矫正后面单图像。一方面,由于角点标记坐标携带了角点标记信息,因此可以确定目标面单的左上角点、左下角点、右下角点和右上角点所在位置,进而可以反映出目标面单的朝向、倾斜角度等信息;因此,基于角点标记坐标对待矫正面单图像进行矫正,可以保证目标面单恢复至正确的朝向,从而精准地对待矫正面单图像进行矫正。另一方面,由于只需要预测目标面单的四个顶点的角点标记坐标,即可反映出目标面单的朝向、倾斜角度等信息,因此在检测出目标面单的同时可以得到目标面单的朝向、倾斜角度等信息,无需额外增加分类分支进行朝向、倾斜角度等信息的判定,从而减小分类的数据处理量;因此,相对于现有技术检测加分类分支的算法,本申请实施例提高了面单的定位效率、进而提高了面单信息的识别效率。
下面介绍本申请实施例提供的预测模型的训练过程。如图5所示,图5是本申请实施例中提供的预测模型的训练过程的一种流程示意图,预测模型的训练过程包括如下步骤501~步骤506。
为了方便理解,先介绍本申请实施例中的预测模型的网络结构。如图6所示,图6是本申请实施例中提供的预测模型的一种网络结构示意图,预测模型包括特征提取模块、第一预测模块、第二预测模块。
(一)特征提取模块。
特征提取模块,用于对面单图像进行特征提取,得到面单图像的特征图。特征提取模块以单图像作为输入,对面单图像进行包括但不限于卷积、池化等操作中的一种或多种,以实现对面单图像进行特征提取得到面单图像的特征图(即面单图像的图像特征)。例如,特征提取模块以待矫正面单图像作为输入,输出待矫正面单图像的目标特征图。
示例性地,特征提取模块可以包括ResNet网络(Residual Neural Network,残差网络)、mobilenet网络等主干网络backbone部分,用于提取图片中的信息。
进一步地,特征提取模块还可以包括用于对主干网络提取的信息进行整合的neck部分,如neck部分用于整合主干网络中不同尺度下的特征,以便于更好地利用主干网络提取的信息,从而保证后续可以精准地进行信息预测。示例性地,neck部分由特征金字塔网络(feature pyramid networks,FPN)或双向特征金字塔网络(BiFPN)等组成。
(二)第一预测模块。
第一预测模块,用于根据特征提取模型输出的特征图,预测面单图像中面单的面单中心点的坐标。例如,第一预测模块以待矫正面单图像的目标特征图作为输入,输出待矫正面单图像中目标面单的面单中心点的坐标。
(三)第二预测模块。
第二预测模块,用于根据特征提取模型输出的特征图,预测面单相对于的四个顶点分别与面单中心点的偏移量,并带有角点标记信息(简称角点标记偏移量)。例如,第二预测模块以待矫正面单图像的目标特征图作为输入,输出目标面单的四个顶点分别与面单中心点的目标角点标记偏移量。
进一步地,第二预测模块,还用于根据面单相对于的四个顶点分别与面单中心点的偏移量、面单中心点的坐标,确定面单的四个顶点的坐标。
在第一预测模块确定面单中心点的坐标、基于第二预测模块确定角点标记偏移量之后,基于角点标记偏移量和面单中心点的坐标,可以计算出面单各个顶点(包括左上角点、左下角点、右下角点、右上角点)的坐标,并标记右角点标记信息,即得到面单的角点标记坐标,如图6所示,图6中①、②、③、④分别为角点标记信息,分别用于指示面单的左上角点、左下角点、右下角点、右上角点。
501、获取样本面单图像。
其中,样本面单图像为包含样本面单的图像,如包含快递面单的图像。获取样本面单图像的方式与步骤201中获取待矫正面单图像的方式类似,具体可以参照上述步骤201的说明,此处不再赘述。
样本面单图像标注有样本面单的四个顶点与样本面单的中心点的实际偏移量、以及样本面单的实际中心点坐标。
其中,实际偏移量是带有角点标记信息的、样本面单的顶点相对于样本面单中心点的偏移量。
实际中心点坐标是样本面单标注的中心点的坐标。
502、通过待训练的预测模型中的特征提取模块,对所述样本面单图像进行特征提取,得到所述样本面单图像的样本特征图。
其中,样本特征图是指样本面单图像的空间特征信息。
具体地,将样本面单图像输入至待训练的预测模型中,以使得待训练的预测模型中的特征提取模块,基于主干网络部分对样本面单图像进行包括但不限于卷积、池化等操作中的一种或多种,得到样本面单图像的图像信息,从而实现对样本面单图像进行特征提取得到样本面单图像的样本特征图。
进一步地,在主干网络对样本面单图像,进行卷积、池化等操作中的一种或多种之后,再基于neck部分进行对提取得到的图像信息整合,从而得到样本面单图像的样本特征图。
503、通过待训练的预测模型中的第一预测模块,基于所述样本特征图进行预测,得到所述样本面单的预测中心点坐标。
其中,预测中心点坐标是指通过预测得到的样本面单的中心点的坐标。
具体地,通过待训练的预测模型中的第一预测模块,根据样本特征图进行预测,得到样本面单的预测中心点坐标。
504、通过待训练的预测模型中的第二预测模块,基于所述样本特征图进行预测,得到样本面单的四个顶点与所述样本面单的中心点的预测偏移量。
其中,预测偏移量是通过预测得到的带有角点标记信息的、样本面单的各顶点相对于样本面单中心点的偏移量。
具体地,通过待训练的预测模型中的第二预测模块,根据样本特征图进行预测,得到样本面单的四个顶点与样本面单的中心点的预测偏移量。
505、基于所述实际偏移量、所述预测偏移量、所述实际中心点坐标和所述预测中心点坐标,确定所述待训练的预测模型的训练损失。
在一些实施例中,可以结合第二预测模块的顶点偏移量损失和第一预测模块的中心点预测损失,确定待训练的预测模型的训练损失。此时步骤505具体可以包括步骤5051A~步骤5053A:
5051A、基于所述实际中心点坐标和所述预测中心点坐标,确定所述第一预测模块的中心点预测损失。
示例性地,预测模型对应设置了第二损失函数,以使得第一预测模块能够学习到图像中的面单四个顶点与面单中心点的位置关系。第二损失函数对应于预测模型输出的预测中心点坐标进行设置。在训练过程中,第二损失函数的值即为中心点预测损失,通过将实际中心点坐标和预测中心点坐标代入第二损失函数中,即可计算得到第一预测模块的中心点预测损失。其中,在本申请实施例中对第二损失函数的具体函数类型不做限制,示例性地,第二损失函数可以是focal loss损失函数。
5052A、基于所述实际偏移量和所述预测偏移量,确定所述第二预测模块的顶点偏移量损失。
示例性地,预测模型对应设置了第一损失函数,以使得第二预测模块能够学习到图像中的面单顶点信息。第一损失函数对应于预测模型输出的预测偏移量进行设置。在训练过程中,第一损失函数的值即为顶点偏移量损失,通过将预测偏移量和实际偏移量代入第一损失函数中,即可计算得到第二预测模块的顶点偏移量损失。其中,在本申请实施例中对第一损失函数的具体函数类型不做限制,示例性地第一损失函数可以是wing loss损失函数等。
5053A、根据所述顶点偏移量损失和所述中心点预测损失,确定待训练的预测模型的训练损失。
示例性地,可以将顶点偏移量损失和中心点预测损失进行直接加和,作为待训练的预测模型的训练损失。
或者,可以将顶点偏移量损失和中心点预测损失按照一定权重进行加和,作为待训练的预测模型的训练损失。
在一些实施例中,除了可以结合第二预测模块的顶点偏移量损失和第一预测模块的中心点预测损失,还可以进一步结合样本面单最小外接矩形的外接矩形预测损失,确定待训练的预测模型的训练损失。此时,步骤505之前还包括:基于所述预测偏移量确定所述样本面单的四个顶点的坐标;基于所述样本面单的四个顶点,确定所述样本面单最大外接矩形的预测顶点标记坐标;其中,所述样本面单图像还标注有所述样本面单最大外接矩形的实际顶点标记坐标。步骤505具体可以包括步骤5051B~步骤5054B:
其中,步骤“基于所述预测偏移量确定所述样本面单的四个顶点的坐标”与上述步骤204确定目标面单的四个顶点的角点标记坐标类似,步骤“基于所述样本面单的四个顶点,确定所述样本面单最大外接矩形的预测顶点标记坐标”与上述步骤2051类似,可以分别参照上述步骤204、步骤2051的说明,此处不再赘述。
5051B、基于所述实际中心点坐标和所述预测中心点坐标,确定所述第一预测模块的中心点预测损失。
步骤5051B与上述步骤5051A实现相同,此处不再赘述。
5052B、基于所述实际偏移量和所述预测偏移量,确定所述第二预测模块的顶点偏移量损失。
步骤5052B与上述步骤5052A实现相同,此处不再赘述。
5053B、基于所述实际顶点标记坐标和所述预测顶点标记坐标,确定所述样本面单的外接矩形预测损失。
其中,实际顶点标记坐标是指标注得到的带有角点标记信息的、样本面单最大外接矩形的顶点相对于面单中心点的偏移量。此处,角点标记信息是样本面单最大外接矩形的左上角点、左下角点、右下角点和右上角点的指示信息。
其中,预测顶点标记坐标是指预测得到的带有角点标记信息的、样本面单最大外接矩形的顶点相对于面单中心点的偏移量。此处,角点标记信息是样本面单最大外接矩形的左上角点、左下角点、右下角点和右上角点的指示信息。
示例性地,预测模型对应设置了第三损失函数,以使得第二预测模块能够学习到图像中的面单四个顶点的位置信息。第三损失函数对应于预测模型输出的预测顶点标记坐标进行设置。在训练过程中,第三损失函数的值即为外接矩形预测损失,通过将实际顶点标记坐标和预测顶点标记坐标代入第三损失函数中,即可计算得到样本面单的外接矩形预测损失作为第二预测模块的外接矩形预测损失。其中,在本申请实施例中对第三损失函数的具体函数类型不做限制,示例性地,第三损失函数可以是GiouLoss损失函数。
5054B、基于所述顶点偏移量损失、所述中心点预测损失和所述外接矩形预测损失,确定所述训练损失。
示例性地,可以将顶点偏移量损失、中心点预测损失和外接矩形预测损失进行直接加和,作为待训练的预测模型的训练损失。
或者,可以将顶点偏移量损失、中心点预测损失和外接矩形预测损失按照一定权重进行加和,作为待训练的预测模型的训练损失。
在一些实施例中,可以结合第二预测模块的面单顶点预测损失、第一预测模块的中心点预测损失,确定待训练的预测模型的训练损失。此时,步骤505之前还包括:基于所述预测偏移量确定所述样本面单的四个顶点的预测角点坐标。步骤505具体可以包括步骤5051C~步骤5053C:
其中,步骤“基于所述预测偏移量确定所述样本面单的四个顶点的预测角点坐标”与上述步骤204确定目标面单的四个顶点的角点标记坐标类似,可以分别参照上述步骤204的说明,此处不再赘述。
5051C、基于所述实际中心点坐标和所述预测中心点坐标,确定所述第一预测模块的中心点预测损失。
步骤5052C与上述步骤5051A实现相同,此处不再赘述。
5052C、基于所述实际角点坐标和所述预测角点坐标,确定所述第二预测模块的面单顶点预测损失。
其中,样本面单图像还标注有样本面单的四个顶点的实际角点坐标。
实际角点坐标是指样本面单标注的各顶点的坐标。
示例性地,预测模型对应设置了第四损失函数,以使得第二预测模块能够学习到图像中的面单四个顶点的位置信息。第四损失函数对应于预测模型输出的预测角点坐标进行设置。在训练过程中,第四损失函数的值即为面单顶点预测损失,通过将实际角点坐标和预测角点坐标代入第四损失函数中,即可计算得到第二预测模块的面单顶点预测损失。其中,在本申请实施例中对第四损失函数的具体函数类型不做限制,示例性地,第四损失函数可以是wing loss损失函数。
5053C、基于所述面单顶点预测损失和所述中心点预测损失,确定所述训练损失。
示例性地,可以将面单顶点预测损失和中心点预测损失进行直接加和,作为待训练的预测模型的训练损失。
或者,可以将面单顶点预测损失和中心点预测损失按照一定权重进行加和,作为待训练的预测模型的训练损失。
在一些实施例中,可以结合第二预测模块的面单顶点预测损失、第一预测模块的中心点预测损失以及外接矩形预测损失,确定待训练的预测模型的训练损失。此时,步骤505之前还包括:基于所述预测偏移量确定所述样本面单的四个顶点的预测角点坐标;基于所述样本面单的四个顶点,确定所述样本面单最大外接矩形的预测顶点标记坐标。步骤505具体可以包括步骤5051D~步骤5054D:
5051D、基于所述实际中心点坐标和所述预测中心点坐标,确定所述第一预测模块的中心点预测损失。
步骤5051D与上述步骤5051A实现相同,此处不再赘述。
5052D、基于所述实际角点坐标和所述预测角点坐标,确定所述第二预测模块的面单顶点预测损失。
其中,样本面单图像还标注有样本面单的四个顶点的实际角点坐标。
步骤5052D与上述步骤5052C实现相同,此处不再赘述。
5053D、基于所述实际顶点标记坐标和所述预测顶点标记坐标,确定所述样本面单的外接矩形预测损失。
步骤5053D与上述步骤5053B实现相同,此处不再赘述。
5054D、基于所述面单顶点预测损失、所述中心点预测损失和所述外接矩形预测损失,确定所述训练损失。
示例性地,可以将面单顶点预测损失、中心点预测损失和外接矩形预测损失进行直接加和,作为待训练的预测模型的训练损失。
或者,可以将面单顶点预测损失、中心点预测损失和外接矩形预测损失按照一定权重进行加和,作为待训练的预测模型的训练损失。
506、基于所述训练损失对所述待训练的预测模型的参数进行调整,直至符合预设的停止训练条件时,得到训练好的预测模型。
其中,预设的停止训练条件可以根据实际需求而设置。例如,可以是当训练损失小于预设值时,或者是训练损失基本不再变化时,即相邻多次训练对应的训练损失的差值小于预设值;或者是待训练的预测模型训练的迭代次数达到最大迭代次数时。
具体地,可以基于面单顶点预测损失进行反向传播调整第二预测模块的模型参数。或者,基于中心点预测损失进行反向传播调整第一预测模块的模型参数。或者,基于外接矩形预测损失进行反向传播调整第二预测模块的模型参数。或者,基于顶点偏移量损失进行反向传播调整第二预测模块的模型参数。
在得到训练好的预测模型之后,即可以通过训练好的预测模型中的第二预测模块,基于所述待矫正面单图像,获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量;通过训练好的预测模型中的第一预测模块,基于所述待矫正面单图像,获取所述待矫正面单图像中目标面单的面单中心点的坐标。
具体地,将待矫正面单图像输入至训练好的预测模型中,通过特征提取模块对待矫正面单进行包括但不限于卷积、池化等操作中的一种或多种,以实现对待矫正面单进行特征提取得到待矫正面单图像的目标特征图(即面单图像的图像特征)。
然后,通过第二预测模块根据待矫正面单图像的目标特征图进行预测,得到目标面单的四个顶点分别与面单中心点的目标角点标记偏移量。并通过第一预测模块根据待矫正面单图像的目标特征图进行预测,得到待矫正面单图像中目标面单的面单中心点的坐标。
进一步地,在实际应用场景中,在得到矫正后面单图像后,还可以基于所述矫正后面单图像进行识别,得到所述目标面单的面单信息。
其中,面单信息是目标面的记录信息,例如,文字、条形码、二维码等。
示例性地,待矫正面单图像为快件分拣场景中的快件面单图像,通过上述步骤201~步骤205可以对快件面图像中的快件面单进行检测并矫正,得到矫正后的快件面单图像。并基于快件面单图像进行识别,得到快件面单的面单信息,如发件人、收件人以及产品重量、价格等相关信息。
进一步地,在实际应用场景中,步骤201中可以获取待分拣快件的面单图像,以作为待矫正面单图像。并按照上述步骤202~步骤205的方式对待分拣快件的面单图像进行检测并矫正,得到矫正后的快件面单图像。并基于矫正后的快件面单图像进行识别,得到快件面单的面单信息,如发件人、收件人以及产品重量、价格、目的地、出发地等相关信息。最后,基于快件面单的面单信息对待分拣快件进行分拣。
通过上述步骤201~步骤205的方式对待分拣快件的面单图像进行检测并矫正,由于可以直接基于预测面单的角点标记坐标来确定图像的倾斜角点并矫正,无需增加分类分支进行图像的倾斜角点判别,提高了面单的定位效率,进而提高了面单信息识别效率。
为了更好实施本申请实施例中面单图像矫正方法,在面单图像矫正方法基础之上,本申请实施例中还提供一种面单图像矫正装置,如图7所示,为本申请实施例中面单图像矫正装置的一个实施例结构示意图,该面单图像矫正装置700包括:
获取单元701,用于获取待矫正面单图像;
坐标预测单元702,用于获取所述待矫正面单图像中目标面单的面单中心点的坐标;
所述坐标预测单元702,还用于获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量;
所述坐标预测单元702,还用于根据所述目标角点标记偏移量和所述面单中心点的坐标,确定所述目标面单的四个顶点的角点标记坐标,其中,所述角点标记坐标用于指示所述目标面单的左上角点、左下角点、右下角点和右上角点;
矫正单元703,用于基于所述目标面单的四个顶点的角点标记坐标对所述待矫正面单图像进行矫正,得到所述待矫正面单图像的矫正后面单图像。
在一些实施例中,所述坐标预测单元702具体用于:
基于所述目标面单的四个顶点的角点标记坐标,获取所述目标面单的四个顶点的最小包围矩形、以及所述最小包围矩形的四个矩形顶点的坐标;
基于所述四个矩形顶点的坐标和所述目标面单的四个顶点的角点标记坐标,确定所述待矫正图像的透视变换矩阵;
基于所述透视变换矩阵,对所述待矫正面单图像中所述最小包围矩形的区域进行透视变换,得到所述待矫正面单图像的矫正后面单图像。
在一些实施例中,所述矫正单元703具体用于:
基于所述透视变换矩阵,对所述待矫正面单图像中所述最小包围矩形的区域进行透视变换,得到透视变换后图像;
基于所述四个矩形顶点的坐标与所述目标面单的四个顶点的坐标,确定所述四个矩形顶点的角点标记信息;
基于所述角点标记信息,对所述透视变换后图像进行旋转,得到所述待矫正图像的矫正后面单图像。
在一些实施例中,所述坐标预测单元702具体用于:
通过训练好的预测模型中的第一预测模块,基于所述待矫正面单图像,获取所述待矫正面单图像中目标面单的面单中心点的坐标。
在一些实施例中,所述坐标预测单元702具体用于:
通过训练好的预测模型中的第二预测模块,基于所述待矫正面单图像,获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量。
在一些实施例中,所述面单图像矫正装置还包括训练单元(图中未示出),所述训练单元具体用于:
获取样本面单图像,所述样本面单图像标注有样本面单的四个顶点与所述样本面单的中心点的实际偏移量、以及所述样本面单的实际中心点坐标;
通过待训练的预测模型中的特征提取模块,对所述样本面单图像进行特征提取,得到所述样本面单图像的样本特征图;
通过待训练的预测模型中的第一预测模块,基于所述样本特征图进行预测,得到所述样本面单的预测中心点坐标;
通过待训练的预测模型中的第二预测模块,基于所述样本特征图进行预测,得到样本面单的四个顶点与所述样本面单的中心点的预测偏移量;
基于所述实际偏移量、所述预测偏移量、所述实际中心点坐标和所述预测中心点坐标,确定所述待训练的预测模型的训练损失;
基于所述训练损失对所述待训练的预测模型的参数进行调整,直至符合预设的停止训练条件时,得到训练好的预测模型。
在一些实施例中,所述样本面单图像还标注有所述样本面单最大外接矩形的实际顶点标记坐标,所述训练单元具体用于:
基于所述预测偏移量确定所述样本面单的四个顶点的坐标;
基于所述样本面单的四个顶点的坐标,确定所述样本面单最大外接矩形的预测顶点标记坐标;
基于所述实际中心点坐标和所述预测中心点坐标,确定所述第一预测模块的中心点预测损失;
基于所述实际偏移量和所述预测偏移量,确定所述第二预测模块的顶点偏移量损失;
基于所述实际顶点标记坐标和所述预测顶点标记坐标,确定所述样本面单的外接矩形预测损失;
基于所述顶点偏移量损失、所述中心点预测损失和所述外接矩形预测损失,确定所述训练损失。
在一些实施例中,所述面单图像矫正装置还包括识别单元(图中未示出),所述识别单元具体用于:
基于所述矫正后面单图像进行识别,得到所述目标面单的面单信息。
在一些实施例中,所述获取单元701具体用于:
获取待分拣快件的面单图像,以作为待矫正面单图像;
在一些实施例中,所述面单图像矫正装置还包括分拣单元(图中未示出),所述分拣单元具体用于:
所述基于所述矫正后面单图像进行识别,得到所述目标面单的面单信息,之后还包括:
基于所述面单信息对所述待分拣快件进行分拣。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由于该面单图像矫正装置可以执行本申请如图1至图6对应任意实施例中面单图像矫正方法中的步骤,因此,可以实现本申请如图1至图6对应任意实施例中面单图像矫正方法所能实现的有益效果,详见前面的说明,在此不再赘述。
此外,为了更好实施本申请实施例中面单图像矫正方法,在面单图像矫正方法基础之上,本申请实施例还提供一种电子设备,参阅图8,图8示出了本申请实施例电子设备的一种结构示意图,具体的,本申请实施例提供的电子设备包括处理器801,处理器801用于执行存储器802中存储的计算机程序时实现如图1至图6对应任意实施例中面单图像矫正方法的各步骤;或者,处理器801用于执行存储器802中存储的计算机程序时实现如图7对应实施例中各单元的功能。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器802中,并由处理器801执行,以完成本申请实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
电子设备可包括,但不仅限于处理器801、存储器802。本领域技术人员可以理解,示意仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子备还可以包括输入输出设备、网络接入设备、总线等,处理器801、存储器802、输入输出设备以及网络接入设备等通过总线相连。
处理器801可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分。
存储器802可用于存储计算机程序和/或模块,处理器801通过运行或执行存储在存储器802内的计算机程序和/或模块,以及调用存储在存储器802内的数据,实现计算机装置的各种功能。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的面单图像矫正装置、电子设备及其相应单元的具体工作过程,可以参考如图1至图6对应任意实施例中面单图像矫正方法的说明,具体在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请如图1至图6对应任意实施例中面单图像矫正方法中的步骤,具体操作可参考如图1至图6对应任意实施例中面单图像矫正方法的说明,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请如图1至图6对应任意实施例中面单图像矫正方法中的步骤,因此,可以实现本申请如图1至图6对应任意实施例中面单图像矫正方法所能实现的有益效果,详见前面的说明,在此不再赘述。
以上对本申请实施例所提供的一种面单图像矫正方法、装置、电子设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种面单图像矫正方法,其特征在于,所述方法包括:
获取待矫正面单图像;
获取所述待矫正面单图像中目标面单的面单中心点的坐标;
获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量;
根据所述目标角点标记偏移量和所述面单中心点的坐标,确定所述目标面单的四个顶点的角点标记坐标,其中,所述角点标记坐标用于指示所述目标面单的左上角点、左下角点、右下角点和右上角点;
基于所述目标面单的四个顶点的角点标记坐标对所述待矫正面单图像进行矫正,得到所述待矫正面单图像的矫正后面单图像。
2.根据权利要求1所述的面单图像矫正方法,其特征在于,所述基于所述目标面单的四个顶点的角点标记坐标,确定所述待矫正面单图像的矫正后面单图像,包括:
基于所述目标面单的四个顶点的角点标记坐标,获取所述目标面单的四个顶点的最小包围矩形、以及所述最小包围矩形的四个矩形顶点的坐标;
基于所述四个矩形顶点的坐标和所述目标面单的四个顶点的角点标记坐标,确定所述待矫正面单图像的透视变换矩阵;
基于所述透视变换矩阵,对所述待矫正面单图像中所述最小包围矩形的区域进行透视变换,得到所述待矫正面单图像的矫正后面单图像。
3.根据权利要求1所述的面单图像矫正方法,其特征在于,所述获取所述待矫正面单图像中目标面单的面单中心点的坐标,包括:
通过训练好的预测模型中的第一预测模块,基于所述待矫正面单图像,获取所述待矫正面单图像中目标面单的面单中心点的坐标;
所述获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量,包括:
通过训练好的预测模型中的第二预测模块,基于所述待矫正面单图像,获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量。
4.根据权利要求3所述的面单图像矫正方法,其特征在于,所述方法还包括:
获取样本面单图像,所述样本面单图像标注有样本面单的四个顶点与所述样本面单的中心点的实际偏移量、以及所述样本面单的实际中心点坐标;
通过待训练的预测模型中的特征提取模块,对所述样本面单图像进行特征提取,得到所述样本面单图像的样本特征图;
通过待训练的预测模型中的第一预测模块,基于所述样本特征图进行预测,得到所述样本面单的预测中心点坐标;
通过待训练的预测模型中的第二预测模块,基于所述样本特征图进行预测,得到样本面单的四个顶点与所述样本面单的中心点的预测偏移量;
基于所述实际偏移量、所述预测偏移量、所述实际中心点坐标和所述预测中心点坐标,确定所述待训练的预测模型的训练损失;
基于所述训练损失对所述待训练的预测模型的参数进行调整,直至符合预设的停止训练条件时,得到训练好的预测模型。
5.根据权利要求4所述的面单图像矫正方法,其特征在于,所述样本面单图像还标注有所述样本面单最大外接矩形的实际顶点标记坐标,所述通过待训练的预测模型中的第二预测模块,基于所述样本特征图进行预测,得到样本面单的四个顶点与所述样本面单的中心点的预测偏移量,之后还包括:
基于所述预测偏移量确定所述样本面单的四个顶点的坐标;
基于所述样本面单的四个顶点的坐标,确定所述样本面单最大外接矩形的预测顶点标记坐标;
所述基于所述实际偏移量、所述预测偏移量、所述实际中心点坐标和所述预测中心点坐标,确定所述待训练的预测模型的训练损失,包括:
基于所述实际中心点坐标和所述预测中心点坐标,确定所述第一预测模块的中心点预测损失;
基于所述实际偏移量和所述预测偏移量,确定所述第二预测模块的顶点偏移量损失;
基于所述实际顶点标记坐标和所述预测顶点标记坐标,确定所述样本面单的外接矩形预测损失;
基于所述顶点偏移量损失、所述中心点预测损失和所述外接矩形预测损失,确定所述训练损失。
6.根据权利要求1-5任一项所述的面单图像矫正方法,其特征在于,所述方法还包括:
基于所述矫正后面单图像进行识别,得到所述目标面单的面单信息。
7.根据权利要求6所述的面单图像矫正方法,其特征在于,所述获取待矫正面单图像,包括:
获取待分拣快件的面单图像,以作为待矫正面单图像;
所述基于所述矫正后面单图像进行识别,得到所述目标面单的面单信息,之后还包括:
基于所述面单信息对所述待分拣快件进行分拣。
8.一种面单图像矫正装置,其特征在于,所述面单图像矫正装置包括:
获取单元,用于获取待矫正面单图像;
坐标预测单元,用于获取所述待矫正面单图像中目标面单的面单中心点的坐标;
所述坐标预测单元,还用于获取所述目标面单的四个顶点与所述面单中心点的目标角点标记偏移量;
所述坐标预测单元,还用于根据所述目标角点标记偏移量和所述面单中心点的坐标,确定所述目标面单的四个顶点的角点标记坐标,其中,所述角点标记坐标用于指示所述目标面单的左上角点、左下角点、右下角点和右上角点;
矫正单元,用于基于所述目标面单的四个顶点的角点标记坐标对所述待矫正面单图像进行矫正,得到所述待矫正面单图像的矫正后面单图像。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的面单图像矫正方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的面单图像矫正方法中的步骤。
CN202111085527.5A 2021-09-16 2021-09-16 面单图像矫正方法、装置、电子设备及可读存储介质 Pending CN115830604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111085527.5A CN115830604A (zh) 2021-09-16 2021-09-16 面单图像矫正方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111085527.5A CN115830604A (zh) 2021-09-16 2021-09-16 面单图像矫正方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115830604A true CN115830604A (zh) 2023-03-21

Family

ID=85515007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111085527.5A Pending CN115830604A (zh) 2021-09-16 2021-09-16 面单图像矫正方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115830604A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484035A (zh) * 2023-05-23 2023-07-25 武汉威克睿特科技有限公司 基于人脸识别人物像的简历索引***及方法
CN117853382A (zh) * 2024-03-04 2024-04-09 武汉人工智能研究院 基于稀疏标记物的图像矫正方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484035A (zh) * 2023-05-23 2023-07-25 武汉威克睿特科技有限公司 基于人脸识别人物像的简历索引***及方法
CN116484035B (zh) * 2023-05-23 2023-12-01 武汉威克睿特科技有限公司 基于人脸识别人物像的简历索引***及方法
CN117853382A (zh) * 2024-03-04 2024-04-09 武汉人工智能研究院 基于稀疏标记物的图像矫正方法、装置及存储介质
CN117853382B (zh) * 2024-03-04 2024-05-28 武汉人工智能研究院 基于稀疏标记物的图像矫正方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US11818303B2 (en) Content-based object detection, 3D reconstruction, and data extraction from digital images
US10885644B2 (en) Detecting specified image identifiers on objects
US8983200B2 (en) Object segmentation at a self-checkout
US20200019760A1 (en) Three-dimensional living-body face detection method, face authentication recognition method, and apparatuses
CN108875731B (zh) 目标识别方法、装置、***及存储介质
US20110129118A1 (en) Systems and methods for tracking natural planar shapes for augmented reality applications
US20130251262A1 (en) Text image trimming method
CN115830604A (zh) 面单图像矫正方法、装置、电子设备及可读存储介质
CN111476271B (zh) 图标识别的方法、装置、***、计算机设备和存储介质
US11113680B2 (en) Self-service checkout counter checkout
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
CN109783680B (zh) 图像推送方法、图像获取方法、装置及图像处理***
CN114648756B (zh) 一种基于指向向量的书本文字识别指读方法和***
CN103336938A (zh) 一种基于一维条形码图像的识别方法
EP4369286A1 (en) Shadow elimination device and method, empty disk recognition device and method
CN111222452A (zh) 一种人脸匹配方法、装置、电子设备及可读存储介质
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN111428743B (zh) 商品识别方法、商品处理方法、装置及电子设备
CN113077524A (zh) 一种双目鱼眼相机自动标定方法、装置、设备及存储介质
CN111967529A (zh) 识别方法、装置、设备及***
CN117253022A (zh) 一种对象识别方法、装置及查验设备
CN114140839A (zh) 用于人脸识别的图像发送方法、装置、设备及存储介质
CN110647821A (zh) 通过图像识别进行物体标识的方法和装置
CN115514887A (zh) 视频采集的控制方法、装置、计算机设备和存储介质
CN114863456A (zh) 题目识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination