CN116416626B - 圆形***数据的获取方法、装置、设备及存储介质 - Google Patents

圆形***数据的获取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116416626B
CN116416626B CN202310684211.0A CN202310684211A CN116416626B CN 116416626 B CN116416626 B CN 116416626B CN 202310684211 A CN202310684211 A CN 202310684211A CN 116416626 B CN116416626 B CN 116416626B
Authority
CN
China
Prior art keywords
seal
image
circular
coordinates
circular seal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310684211.0A
Other languages
English (en)
Other versions
CN116416626A (zh
Inventor
孙铁
王琳婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202310684211.0A priority Critical patent/CN116416626B/zh
Publication of CN116416626A publication Critical patent/CN116416626A/zh
Application granted granted Critical
Publication of CN116416626B publication Critical patent/CN116416626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/186Extraction of features or characteristics of the image by deriving mathematical or geometrical properties from the whole image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1465Aligning or centring of the image pick-up or image-field by locating a pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18105Extraction of features or characteristics of the image related to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种圆形***数据的获取方法、装置、设备及存储介质,该方法包括:获取包含圆形***的***图像;定位位于圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;根据所有角的角区域坐标,计算出圆形***的中心点坐标。本申请根据带五角星的圆形***的中心点位于五角星内部的特性,定位出五角星的五个角,根据五个角的角区域坐标来定位圆形***的中心点坐标,可以不受图片倾斜程度和圆形***大小的影响,实现对任意大小任意尺寸任意倾斜程度的圆形***图像进行圆形***中心点等相关数据的精准定位,偏差小,准确度高。

Description

圆形***数据的获取方法、装置、设备及存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种圆形***数据的获取方法、装置、设备及存储介质。
背景技术
在银行、保险等金融领域会较多的存在审核审批环节,其中,对用户数据中的企业***或个人***的识别是其中一个重要环节。对***中的文本进行识别的前提是能精准定位***的相关数据。现有技术在获取图像中***的相关数据时,通常会先对***进行整个章的检测,但是由于图像大而***小等因素会使检测存在误差,得到的结果是真实***不一定与检测后截取的图像完全贴合,会存在上下左右任意一个可能角度的偏差,从而难以确定***的中心或半径等相关数据。
发明内容
本申请的主要目的在于提供一种圆形***数据的获取方法、装置、设备及存储介质,可以解决现有技术中对***图像中的***的中心等相关数据定位不准的技术问题。
为实现上述目的,本申请第一方面提供一种圆形***数据的获取方法,该方法包括:
获取包含圆形***的***图像;
定位位于圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;
根据所有角的角区域坐标,计算出圆形***的中心点坐标。
为实现上述目的,本申请第二方面提供一种圆形***数据的获取装置,该装置包括:
图像获取模块,用于获取包含圆形***的***图像;
五角检测模块,用于定位位于圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;
中心点确定模块,用于根据所有角的角区域坐标,计算出圆形***的中心点坐标。
为实现上述目的,本申请第三方面提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取包含圆形***的***图像;
定位位于圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;
根据所有角的角区域坐标,计算出圆形***的中心点坐标。
为实现上述目的,本申请第四方面提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取包含圆形***的***图像;
定位位于圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;
根据所有角的角区域坐标,计算出圆形***的中心点坐标。
采用本申请实施例,具有如下有益效果:
本申请根据带五角星的圆形***的中心点位于五角星内部的特性,定位出五角星的五个角,根据五个角的角区域坐标来定位圆形***的中心点坐标,可以不受图片倾斜程度和圆形***大小的影响,实现对任意大小任意尺寸任意倾斜程度的圆形***图像进行圆形***中心点的精准定位,偏差小,准确度高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本申请一实施例中圆形***数据的获取方法的流程图;
图2为本申请一实施例中圆形***的效果图;
图3为本申请一实施例中圆形***发生倾斜的效果图;
图4为本申请一实施例中对圆形***进行处理的示意效果图;
图5为本申请一实施例中圆形***数据的获取装置的结构框图;
图6为本申请实施例中计算机设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的圆形***数据的获取方法应用于圆形***数据的获取***。该圆形***数据的获取***既可以安装于台式终端或移动终端也可以安装于服务器中。移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图1所示,在一个实施例中,提供了一种圆形***数据的获取方法。该方法应用于计算机设备。该圆形***数据的获取方法具体包括如下步骤:
S100:获取包含圆形***的***图像。
具体地,***图像包含圆形***,在圆形***中间有一个五角星,在五角星周边分布有环绕的***文字。
S200:定位位于圆形***中间区域的五角星的每个角,得到每个角的角区域坐标。
具体地,可以通过目标检测方法来定位圆形***中间的五角星的每个角。角区域坐标是包含一个角在内的小区域(角区域)的最小x坐标xmin、最小y坐标ymin、最大x坐标xmax、最大y坐标ymax。即,极坐标表示为:(xmin,ymin,xmax,ymax)。
或者,角区域坐标是包含一个角在内的小区域(角区域)的中心坐标(x_center,y_center)以及这个角区域的宽w和高h。即,中心点坐标表示为:(x_center,y_center,w,h)。
包含一个角的角区域可以是一个矩形区域或矩形框。
S300:根据所有角的角区域坐标,计算出圆形***的中心点坐标。
具体地,以角区域坐标通过极坐标表示为例。通过角区域坐标所包含的最小x坐标xmin、最小y坐标ymin、最大x坐标xmax、最大y坐标ymax,计算这个角的点坐标。
例如,五个角的点坐标分别为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)、(x5,y5)。
其中,xmin1、xmax1、ymin1、ymax1分别为第一个角的最小x坐标、最大x坐标、最小y坐标和最大y坐标。
其中,xmin2、xmax2、ymin2、ymax2分别为第二个角的最小x坐标、最大x坐标、最小y坐标和最大y坐标。
其中,xmin3、xmax3、ymin3、ymax3分别为第三个角的最小x坐标、最大x坐标、最小y坐标和最大y坐标。
其中,xmin4、xmax4、ymin4、ymax4分别为第四个角的最小x坐标、最大x坐标、最小y坐标和最大y坐标。
其中,xmin5、xmax5、ymin5、ymax5分别为第五个角的最小x坐标、最大x坐标、最小y坐标和最大y坐标。
以角区域坐标通过中心点坐标表示为例,则五个角的点坐标均为对应中心点坐标表示中的(x_center,y_center)。
圆形***的中心点坐标o(x0,y0)计算公式如下:
其中,圆形***的中心点位于五角星内部。
本实施例根据带五角星的圆形***的中心点位于五角星内部的特性,定位出五角星的五个角,根据五个角的角区域坐标来定位圆形***的中心点坐标,可以不受图片倾斜程度和圆形***大小的影响,实现对任意大小任意尺寸任意倾斜程度的圆形***图像进行圆形***中心点的精准定位,偏差小,准确度高。
在一个实施例中,在得到中心点坐标之后,该方法还包括:
根据中心点坐标和角区域坐标,计算圆形***的中心点到五角星的任意一个角的距离;根据预设的***设计参数、五角星设计参数以及距离,计算出圆形***半径;
或者,
根据中心点坐标和角区域坐标,计算圆形***的中心点到五角星的每个角的距离;对得到的五个距离求距离均值;根据预设的***设计参数、五角星设计参数以及距离均值,计算出圆形***半径;
其中,***设计参数为圆形***设计直径,五角星设计参数为五角星的最小外接圆的设计直径;或,***设计参数为圆形***设计半径,五角星设计参数为五角星的最小外接圆的设计半径。
具体地,计算圆形***的中心点到五角星的每个角的距离,即计算圆形***的中心点到每个角的点坐标的距离,该距离的计算通过以下公式计算得到:
圆形***半径通过以下公式计算得到:
其中,R为圆形***半径,a为***设计参数,b为五角星设计参数,L为圆形***的中心点到五角星任意一个角的距离(Lc1、Lc2、Lc3、Lc4、Lc5中的一个),或者,L为圆形***的中心点到五角星五个角的距离均值(Lc1、Lc2、Lc3、Lc4、Lc5的均值)。
根据***实物的设计规范常见圆形***的直径为4.2cm,而五角星的最小外接圆的直径为1.4cm,同样,也存在***直径设计为3.8cm的情况。可选地,选择***直径与五角星最小外接圆直径之比最大的。
现有技术中,***图像往往可能存在倾斜,在获取***的旋转角度或偏向角度上目前通过遍历像素获取文字区域再来计算角度,通常存在严重偏差。
在一个实施例中,在得到圆形***半径之后,该方法还包括:
检测并定位圆形***中每个字符的文本区域;
对所有文本区域的像素进行同色覆盖;
对***图像进行裁剪,得到包含所有文本区域在内的圆形图像,其中,圆形图像的半径不大于圆形***半径;
将圆形图像转换为灰度图像后进行二值化处理,得到二值化图像;
在二值化图像中以中心点为圆心、遍历半径所形成的圆周上,基于预设遍历规则,确定目标像素点以及目标像素点的像素值和坐标;
根据目标像素点的像素值,对目标像素点进行分组,得到目标像素点连续且均为目标像素值的像素点分组,其中,像素点分组的分组数量与圆形***的类型有关;
根据任意一个像素点分组中的第一个目标像素点和最后一个目标像素点的坐标以及圆形***半径,计算***图像的偏向角度。
具体地,圆形***中的字符可以包括汉字、字母、数字等,且字符之间存在一定的间距。另外,根据圆形***的设计规范,圆形***中的字符环绕在五角星周围但并没有完全将五角星封闭在文字内,而是存在一定留白(即五角星***的部分区域没有字符)。图2为本申请一实施例中圆形***的效果图;参考图2,圆***A的五角星正下方有一片无字符区域,圆形***B的五角星左下方和右下方各有一片无字符区域。当然,图2仅是举例性说明不同的圆形***的无字符区域不同。本申请适用于各种不同设计的圆形***图像,对此本申请不做限制。
如果圆形***图片没有倾斜,则无字符区域也不会存在倾斜;相反,如果圆形***图片发生倾斜,则无字符区域也会随之产生倾斜。具体参见图3圆形***A和圆形***B发生倾斜的效果图。
基于此,本实施例通过遍历像素点找出圆形***中的无字符区域,根据无字符区域来确定圆形***的偏向角度。
在一个具体实施例中,可以通过目标检测方法定位圆形***中的每个字符,得到每个字符对应的文本区域。每个字符的文本区域可以是一个矩形框。
图4为本申请一实施例中对圆形***进行处理的示意效果图;参考图4,对圆形***中的五角星的5个角进行定位,得到5个角的角区域。对每个字符进行定位,得到每个字符的文本区域。在图4中,角区域和文本区域均用虚线框表示。
对所有文本区域进行同色覆盖具体是使用相同颜色对文本区域进行填充,使得文本区域的像素均为相同颜色。例如,***一般使用红色,因此可以使用红色对文本区域进行填充覆盖,文本区域的像素的RGB均为(255,0,0)。
当然也可以使用其他颜色对文本区域进行覆盖,本申请对此不作限制。但是必须保证对文本区域进行同色覆盖再进行二值化后,二值化图像中文本区域的像素与无字符区域的像素的颜色不同。
同色覆盖完成后,对***图像进行裁剪,得到包含所有文本区域在内的圆形图像。
圆形图像可以是包含所有文本区域在内的最小外接圆,如图4所示,该圆形图像的半径为Rc。此种情况,可以紧贴文本区域对***图像进行裁剪得到。
可选地,Rc大于或等于3/4R、小于或等于12/13R。
可选地,圆形图像的半径为Rc可以为5/6R。
裁剪完成后,将圆形图像转换为灰度图像后,再进行二值化处理,得到包含黑白两色的二值化图像。在这个二值化图像中无字符区域的像素点的颜色与文本区域的像素点的颜色不同。这样可以有效区分文字区域和空白无字符的像素点。
在一个具体实施例中,二值化处理具体可以通过以下步骤实现:将裁剪后的圆形图像转化为灰度图像后,遍历每一个宽和高的像素,将小于200像素值的像素点转化为黑色即为0像素值,将大于或等于200像素值的像素点转化为白色即为255像素值,得到只有纯白和纯黑两种颜色的二值化图像。当然本实施例仅是一种示例性二值化处理方式,本申请对其他二值化处理方法不作限制。
在二值化图像上以圆形***的中心点为圆心、小于圆形图像半径Rc的遍历半径Rb形成一个圆周。具体参考图4。可选地,遍历半径Rb所形成的圆周穿过所有文本区域。
在遍历半径Rb所形成的圆周上通过预设遍历规则,找到多个目标像素点,并得到每个目标像素点的像素值,这些目标像素点均是圆周上的像素点。
此外,遍历圆周上的像素点可以顺时针遍历也可以逆时针遍历,本申请对此不作限制。先后遍历到的目标像素点也会按照遍历顺序排列或存储。
目标像素点中有的目标像素点为黑色,有的目标像素点为白色。圆周上属于文本区域的目标像素点与属于无字符区域的目标像素点的颜色不同。我们的目标是找到圆周上属于无字符区域的连续目标像素点。但是字符之间本身存在间隙,因此位于相邻文本区域间隙的目标像素点与无字符区域的像素点的像素值相同,需要排除。
基于此,对所有目标像素点按照像素值和连续性进行分组,将连续且像素值均为目标像素值的目标像素点分为一组,得到像素点分组。目标像素值即无字符区域的像素点的像素值,与文字区域的像素点的像素值不同。像素点分组可能包括一个或一个以上。像素点分组的分组数量与圆形***的类型有关。如图3所示,如果为圆形***A,则像素点分组的分组数量为一个。如果为圆形***B,则像素点分组的分组数量为2个。
不论是圆形***A还是圆形***B,***图像如果发生倾斜,使用任意一个像素点分组都可以计算出***图像的偏向角度。
本实施例的第一个目标像素点和最后一个目标像素点为同一个像素点分组中第一个遍历到的目标像素点和最后一个遍历到的目标像素点。
根据同一个像素点分组中第一个目标像素点的坐标、最后一个目标像素点的坐标和圆形***半径R,可以计算出***图像的偏向角度。
本实施例通过精准的对***中每个文字区域进行像素级精准覆盖同时更精准的判别起始文字位置和终点位置,找出无字符区域,进而根据无字符区域精准计算出***的偏向角度。
在一个实施例中,根据目标像素点的像素值,对目标像素点进行分组,得到目标像素点连续且均为目标像素值的像素点分组,包括:
根据目标像素点的像素值,对像素值为目标像素值且连续的目标像素点进行分组,得到均包含设定数量的目标像素点的候选分组;
若候选分组的数量超过分组阈值,则增加设定数量,重新执行上述步骤,直至在同一轮分组中得到的候选分组的数量为分组阈值,将在最后一轮分组中得到的候选分组作为像素点分组,其中,分组阈值根据圆形***的类型确定。
具体地,如果为圆形***A,则分组阈值为1。如果为圆形***B,则分组阈值为2。
通过预设遍历规则得到的目标像素点是固定的,但是对目标像素点分组可以有多种分组方法。例如,约定每个分组的设定数量不同,得到的候选分组的数量也可能不同。设定数量即每个分组所应包含的目标像素点的期望数量。设定数量越小得到的分组的数量越多。基于此,本实施例在同一轮分组中约定一个设定数量,对为目标像素值且连续的目标像素点进行分组,使得到的每个候选分组所包含的目标像素点的数量为该设定数量。统计这一轮分组中得到的候选分组的分组数量,如果分组数量超过分组阈值,则说明设定数量设置得过小,导致分组数量过多,不满足要求,需要更改设定数量重新分组。
下一轮分组的设定数量可以是在上一轮分组的设定数量的基础上加上一个数值,例如加1、加2、加3、加4等,本申请对此不作限制。
下一轮分组按照新的设定数量,重新执行步骤根据目标像素点的像素值,对像素值为目标像素值且连续的目标像素点进行分组,得到均包含设定数量的目标像素点的候选分组,直到同一轮分组中得到的候选分组的数量为分组阈值。
经过多轮分组(每轮分组的设定数量不同),最终得到的候选分组的数量为分组阈值即可停止分组。将最后一轮分组得到的候选分组作为像素点分组。
本实施例通过增加设定数量的方式循环进行多轮分组,找到满足分组阈值的最佳像素点分组。既可以排除掉文字区域间隙的像素点(间隙的像素点少于无字符区域的像素点),也可以精准定位无字符区域的像素点。
在一个实施例中,任意相邻两个目标像素点为等间距的。
具体地,等间距是指任意相邻两个目标像素点相对于起始像素点所对应的角度的角度差或弧度相等。
例如,多个目标像素点相对于起始像素点所对应的角度分别为0°、1°、2°、3°、4°....。相邻两个目标像素点的角度差均为1°。
相邻两个目标像素点的间隔即角度差越大,得到的目标像素点越少;相邻两个目标像素点的间隔即角度差越小,得到的目标像素点越多。基于此,任意相邻两个目标像素点所对应的角度差根据实际应用场景设置,本申请对此不作限制。
目标像素点均位于同一个圆周上。通过等间距的预设遍历规则从圆周上有规律的寻找目标像素点,找到的目标像素点更具代表性。
在一个实施例中,任意一个目标像素点的坐标通过以下式(2)计算得到:
式(2)
其中,为目标像素点p的坐标,/>为圆形***的中心点坐标,i为目标像素点p相对于圆周上的起始像素点所对应的半径划过的角度,i为不大于360的数,/>为遍历半径。
具体地,i为不大于360的变量,不同的目标像素点对应的i的取值不同。预设遍历规则可以是i的取值为j、2j、2j+1、3j、4j等其中的一个,j为变量,i随j的取值变化。
i=j时,例如,j=0、1、2、3....360,则i的取值为0、1、2、3....360。
i=2j时,例如,j=0、1、2、3....180,则i的取值为0、2、4、6....360。
i=2j+1时,例如,j=0、1、2、3....179,则i的取值为1、3、5、7...359。
i=3j时,例如,j=0、1、2、3....120,则i的取值为0、3、6、9、...360。
i=4j时,例如,j=0、1、2、3....90,则i的取值为0、4、8、12、...360。
在一个实施例中,i=4j,且,j为不大于90的数。
具体地,相邻两个目标像素点所对应的i的取值不同,也决定了二者的间距。本实施例取i=4j,在减少遍历计算量的同时,也兼顾了目标像素点的数量和相邻像素点的间距,既能体现遍历像素的普遍性又能体现效率。
在一个实施例中,***图像的偏向角度通过以下式(1)计算得到:
式(1)
其中,A为偏向角度,为第一个目标像素点的坐标,/>为最后一个目标像素点的坐标,R为圆形***半径。
具体地,第一个目标像素点的坐标和最后一个目标像素点的坐标通过上述式(2)计算得到。
通过第一个目标像素点的坐标和最后一个目标像素点的坐标可以判断第一个目标像素点和最后一个目标像素点相对于圆形***的中心点的所在象限。根据第一个目标像素点的坐标和最后一个目标像素点的坐标,也可以判断出发生倾斜的圆形***相较于没有发生倾斜的圆形***而言的倾斜程度。
另外,偏向角度也可以表示为180/π*A。
在此获取了圆形***的中心和半径,以及偏向的偏向角度后,可以使用这三个要素对原图基础上裁剪出的***图像进行精准的极坐标变换,从而得到平直的文本行图像,进一步通过OCR技术识别***图像上的文本内容。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
在一个实施例中,步骤S200具体包括:
将***图像输入至已训练的五角检测模型中进行角区域定位,得到***图像中角目标的目标检测结果,其中,角目标的目标检测结果包括***图像中五角星的每个角的角预测框,五角检测模型基于YOLO模型构建;
根据五角检测模型中特征图和原图的比例关系,将角预测框映射到***图像上,根据映射后的角预测框在***图像上的所在区域,得到每个角的角区域坐标。
具体地,五角检测模型可以基于YOLO(YouLookOnlyOnce)模型构建,具体地可以基于不同版本的YOLO模型(例如YOLO V1、YOLO V2、YOLO V3、YOLO V4、YOLO V5等版本)构建。角目标的目标检测结果中包括每个角的角预测框的几个参数值(x,y,w,h,c)。其中,(x,y)代表角预测框的中心坐标,w和h代表角预测框的宽和高,c代表置信度confidence。
将角预测框映射到***图像中,即可得到在***图像上五角星的每个角的角区域以及角区域坐标。
本实施例通过基于YOLO算法的目标检测,可以对五角星的五个角的角区域进行精准识别和定位。
在一个实施例中,五角检测模型通过以下步骤训练得到:
获取包含五角星的样本图像;
对样本图像进行数据标注,生成标注文件,其中,标注文件存储有标注数据,标注数据包括五角星的每个角所对应的真实边框的坐标、尺寸和标注类别;
对选择的样本图像进行归一化处理后输入至预训练的五角检测模型;
利用预训练的五角检测模型所包含的特征提取层对输入图像进行特征提取,得到不同尺寸的第一特征图;
利用预训练的五角检测模型所包含的特征融合层对不同尺寸的第一特征图进行采样和特征融合,得到不同尺寸的第二特征图;
利用预训练的五角检测模型所包含的预测层对输入的第二特征图进行回归预测,得到不同尺寸的第一特征图所对应的张量数据,其中,张量数据包括预测得到的每个预测边框的坐标位置、尺寸、目标类别和置信度;
根据张量数据以及对应的标注数据,计算损失函数;
根据损失函数,经过反向传播求取梯度,使用梯度下降法进行模型参数更新,重复上述对选择的样本图像进行归一化处理后输入至预训练的五角检测模型及后面步骤,直至模型收敛,得到已训练的五角检测模型。
具体地,在数据集构建过程中,每个样本图像包含一个或多个五角星***,将这些样本图像保存在同一个图像文件夹下。采用开源labelImg工具对样本图像进行打标,打标即框出每个五角星的五个角,为每个角命名,每个五角星包括哪五个角,将得到的标签数据保存到xml文件中。每个xml文件保存一个图像的数据;如果一个图像有多个五角星***,那这多个五角星***的数据都保存在同一个xml文件中。
当然还可以通过json等格式文件来保存标签数据,这些格式都可以进行转化或者在加载时根据格式进行读取解析。
xml内包含样本图像的图像对象名(样本图像所在图像文件夹的名称)、图像文件名(样本图像的名称)、图像文件路径、图像大小对应宽、高、深度、五角星的角区域坐标,以及每个五角星所包含的五个角的对象名。将这些xml文件放在同一个xml文件夹下。图像文件夹下的图像文件和xml文件夹的xml文件通过文件名一一对应起来的。例如,abc.jpg与abc.xml对应,除此之外,在abc.xml中还会包含对应图像的图像文件名如<filename>abc.jpg</filename>。同一个图像打标后得到的相关数据均保存在同一个xml文件下。
样本图像打标完成后形成数据集。可以将数据集划分按照一定划分为训练集、测试集和验证集。例如:按照70%、20%、10%的预设比例随机划分为训练集、验证集和测试集,以用于五角检测模型的训练和测试。或者,将数据集按照(训练集(训练和验证9:1)和测试集(训练集和测试集9:1))划分。当然,数据集的具体划分策略根据实际应用场景设置,本申请对此不作限制。
确认划分个数后通过随机抽取xml文件拿到图像文件名去除后缀如.jpg后作为索引保存至txt文件中,例如以单行形式保存,即最后包含test.txt、train.txt、trainval.txt以及val.txt,由此通过txt文件中索引能够同时获取xml对应打标标签内容以及原始图像。
五角检测模型包括输入层、特征提取层也即特征提取骨干网络backbone、特征融合层即neck网络(颈部特征融合层)和预测层(分类器)即检测头head。
特征提取层用于对输入图像进行特征提取,得到不同尺寸的第一特征图。例如得到感受野最小而尺度最大、感受野中等且尺度中等和感受野最大而尺度最小的三种不同尺度的第一特征图。
特征融合层用于对不同尺寸的第一特征图进行采样和特征融合,得到不同尺寸的第二特征图。
预测层用于对输入的第二特征图进行回归预测,得到每个第一特征图对应的张量数据。每个第一特征图的张量数据包括每个预测边框的坐标位置和尺寸、置信度,即五元组(x,y,w,h,c)和目标类别。
根据张量数据和真实的标注数据,可以计算出损失函数。如果根据损失函数确定模型未收敛,则根据损失函数得到梯度,通过梯度下降和反向传播来更新五角检测模型的模型参数后,重新利用数据集对参数更新后的五角检测模型进行训练和验证,直到模型收敛,得到已训练的五角检测模型。模型收敛的条件为损失函数达到损失阈值或者模型迭代训练次数达到次数阈值。
置信度反应了网格是否包含对象,以及包含对象时预测边框的准确性,还可以删除低于置信度阈值的预测边框,通过非极大值抑制得到整个网络的预测结果。
另外,还可以通过验证集对已训练的五角检测模型进行验证,统计后输出验证集中各个类别的AP值;如果统计的各个类别的AP值的平均值达到某一固定值,则验证通过。
在一个实施例中,获取样本图像,包括:
对获取到的原始图像进行数据增强;
将原始图像和数据增强后得到的图像作为样本图像。
具体地,可以采用Mosaic数据增强、CutMix数据增强、自对抗训练数据增强等技术对原始图像进行数据增强。Mosaic数据增强可以丰富数据集,采用4张图片,随机缩放、随机裁剪、随机排布的方式进行拼接。CutMix数据增强:使用了两张图片进行拼接。
数据增强可以丰富数据集,采用图像几何变换随机使用多张图片,随机缩放,再随机分布进行拼接,大大丰富了检测数据集,特别是随机缩放增加了很多小目标,让网络的鲁棒性更好。训练样本进行数据增强,增加训练样本的多样性进而提高目标检测精度。
在一个实施例中,还可以采用Label Smoothing技术对样本标签进行平滑处理。
在一个实施例中,在对选择的样本图像进行归一化处理后输入至预训练的五角检测模型之前,五角检测模型的训练步骤还包括:
使用第一聚类算法对训练集中样本图像的真实边框进行聚类,取各类中心的边框尺寸作为先验候选框尺寸,得到先验框。
利用预训练的五角检测模型所包含的预测层对输入的第二特征图进行预测,得到不同尺寸的第一特征图所对应的张量数据,包括:
将先验框按照预设规则预先分布到第二特征图上,根据第二特征图上锚点信息对相应的先验框进行调整,得到所有预测边框的张量数据。
具体地,第一聚类算法可以为K-means++聚类算法、K-means聚类算法、DBSCAN密度聚类算法等方法中的一种。使用聚类算法对样本图像的真实边框(即GT框)进行聚类,得到多个不同大小的先验框(Anchor box又称预选框)。更具体地,使用第一聚类算法对数据集或训练集中的样本图像的真实边框进行聚类,取各类中心的边框尺寸作为模型得到预测边框的先验框尺寸即先验信息。
第一聚类算法的输入数据是ground truth bounding box(真实边框)的宽度和高度。不同图像尺寸下的场景,每个ground truth bounding box的尺寸不一,非常有必要来标准化边界框的宽度和高度与图像的宽度和高度,第一聚类算法聚类过程中使用IOU度量,将每个box分配给与其距离最近的anchor,而在计算IOU时不需要关心box的大小,box和anchor越相似则IOU越大,所以可以使用归一化之后的box宽高来进行计算IOU。
对输入图像进行缩放,再把输入图像划分为S×S个网格,在每个网格单元中进行检测是否存在五角星的角。每个网格单元根据先验框可以预测多个边框,并且给出这些预测边框的置信度分数和尺寸以及中心坐标,最后通过非极大抑制对预测边框进行筛选。YOLO网络使用非极大抑制方法来选择最佳的边框,即选取置信度满足阈值的边框。
在一个实施例中,五角检测模型还包括SPP(空间金字塔池化 (spatial pyramidpooling))层,SPP层位于特征提取层和特征融合层之间,可以增加网络的感受野。特征提取骨干网络为CSPDarknet53网络结构,CSPDarknet53网络结构输出四个大小分别为152*152、76*76、38*38、19*19的第一特征图,大小为19*19的第一特征图输入SPP模块,经SPP模块最大池化后拼接得到第三特征图,将第三特征图以及CSPDarknet53网络结构输出的大小分别为152*152、76*76、38*38的第一特征图输入特征融合层,多分类器模块基于特征融合层输出的76*76、38*38、19*19三个尺度的第二特征图进行分类检测,输出最终的目标检测结果。其中,特征融合层在FPN基础上通过上采样和下采样等操作实现特征融合。
在一个实施例中,可以采用V100四卡训练,根据显存大小适当适配调整输入深度网络的图像大小。
在一个实施例中,可以采用学习率余弦退火衰减策略进行模型训练。
在一个实施例中,可以采用Mish激活函数。
在一个实施例中,练过程中主干特征提取网络特征通用冻结训练可以加快训练速度,也可以在训练初期防止权值被破坏。例如,训练了200个epoch,前100个epoch初始学习率设置为le-3,batch_size为8,后100个epoch经过尝试加快训练速度和让显存使用减少将初始学习率设置为le-4,batch_size为4。
在一个实施例中,样本图像包含至少一个五角星***,标注数据还包括五角星个数以及每个五角星所包含的角;
在得到张量数据之后,五角检测模型训练步骤还包括:
对得到的预测边框进行聚类,以将每5个预测边框聚为一类,得到聚类结果;
根据张量数据以及对应的标注数据,计算损失函数,包括:
根据张量数据和聚类结果以及对应的标注数据,计算交并比损失、分类损失、置信度损失和聚类损失,将交并比损失、分类损失、置信度损失和聚类损失以预设比例加权求和,得到网络整体损失。
具体地,为了增强数据的多样性,让网络的鲁棒性更好。样本图像所包含的五角星***可以有一个、两个或多个。每个五角星***的中间包含一个五角星。
在得到五角星的预测边框后,还需要对预测边框进行聚类,聚类策略是每五个预测边框聚为一类,聚为一类的预测边界即认为是同一个五角星的五个角的预测边框。
预测边框的聚类可以由第二聚类算法实现。第二聚类算法可以为K-means++聚类算法、K-means聚类算法、DBSCAN密度聚类算法等方法中的一种。五角检测模型中可以集成有第二聚类层。
如果五角检测模型中集成有第二聚类层,则五角检测模型的网络整体损失包括交并比损失、分类损失、置信度损失和聚类损失。其中,聚类损失为预测边框的聚类损失。
可选地,五角检测模型选择CIOU策略计算损失。
当然,如果第二聚类算法不集成在五角检测模型,则五角检测模型的网络整体损失包括交并比损失、分类损失和置信度损失。在五角检测模型的后面可以连接聚类模型,用于对预测边框进行聚类,该五角检测模型和聚类模型分别单独进行训练。
预测边框的聚类具体可以这样实现:采用第二聚类算法对所有角的预测边框进行聚类,例如,对一个预测边框周围200个像素点范围以内的预测边框进行聚类,每次寻找相邻预测边框的个数设置5个,得到聚类簇。聚类簇的个数即为五角星的个数,每个聚类簇所包含的五个预测边框即认为是同一个五角星的五个角的预测边框。
聚类结果用于根据聚类数量指示五角星数量以及每个五角星所包含的预测边框。根据聚类结果和输入图像中各个角的真实归属(即输入图像中每个五角星所真实包含的角),可以计算出聚类损失。根据聚类损失可以更新聚类模型的模型参数,直到聚类模型收敛。
在一个实施例中,检测并定位圆形***中每个字符的文本区域,包括:
将***图像输入至已训练的文本检测模型中进行字符区域定位,得到***图像中字符目标的目标检测结果,其中,字符目标的目标检测结果包括***图像中每个字符的字符预测框,文本检测模型基于YOLO模型构建;
根据文本检测模型中特征图和原图的比例关系,将字符预测框映射到***图像上,根据映射后的字符预测框在***图像上的所在区域,得到每个字符的文本区域坐标。
具体地,文本检测模型可以基于YOLO(YouLookOnlyOnce)模型构建,具体地可以基于不同版本的YOLO模型(例如YOLO V1、YOLO V2、YOLO V3、YOLO V4、YOLO V5等版本)构建。字符目标的目标检测结果中包括每个字符的字符预测框的几个参数值(x,y,w,h,c)。其中,(x,y)代表字符预测框的中心坐标,w和h代表字符预测框的宽和高,c代表置信度confidence。
将字符预测框映射到***图像中,即可得到在***图像上每个字符的文本区域以及文本区域坐标。
本实施例通过基于YOLO算法的目标检测,可以对字符的文本区域进行精准识别和定位。
在一个实施例中,文本检测模型通过以下步骤训练得到:
获取包含字符的样本图像;
对样本图像进行数据标注,生成标注文件,其中,标注文件存储有标注数据,标注数据包括每个字符所对应的真实边框的坐标、尺寸和标注类别;
对样本图像进行归一化处理后输入至预训练的文本检测模型;
利用预训练的文本检测模型所包含的特征提取层对输入图像进行特征提取,得到不同尺寸的第一特征图;
利用预训练的文本检测模型所包含的特征融合层对不同尺寸的第一特征图进行采样和特征融合,得到不同尺寸的第二特征图;
利用预训练的文本检测模型所包含的预测层对输入的第二特征图进行回归预测,得到不同尺寸的第一特征图所对应的张量数据,其中,张量数据包括预测得到的每个字符预测边框的坐标位置、尺寸、目标类别和置信度;
根据张量数据以及对应的标注数据,计算损失函数;
根据损失函数,经过反向传播求取梯度,使用梯度下降法进行模型参数更新,重复上述对样本图像进行归一化处理后输入至预训练的文本检测模型及后面步骤,直至模型收敛,得到已训练的文本检测模型。
文本检测模型的具体训练过程可以参见上述五角检测模型,此处不再赘述。
本申请致力解决获取***的中心坐标、半径以及角度,方便后续使用极坐标方法将圆形***进行拉直后识别文本。
参考图5,本申请还提供了一种圆形***数据的获取装置,该装置包括:
图像获取模块100,用于获取包含圆形***的***图像;
五角检测模块200,用于定位位于圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;
中心点确定模块300,用于根据所有角的角区域坐标,计算出圆形***的中心点坐标。
在一个实施例中,该装置还包括:
距离计算模块,用于根据中心点坐标和角区域坐标,计算圆形***的中心点到五角星的任意一个角的距离;
半径计算模块,用于根据预设的***设计参数、五角星设计参数以及距离,计算出圆形***半径;
或者,
该装置还包括:
距离计算模块,用于根据中心点坐标和角区域坐标,计算圆形***的中心点到五角星的每个角的距离;
均值计算模块,用于对得到的五个距离求距离均值;
半径计算模块,用于根据预设的***设计参数、五角星设计参数以及距离均值,计算出圆形***半径;
其中,***设计参数为圆形***设计直径,五角星设计参数为五角星的最小外接圆的设计直径;或,***设计参数为圆形***设计半径,五角星设计参数为五角星的最小外接圆的设计半径。
在一个实施例中,该装置还包括:
文本检测模块,用于检测并定位圆形***中每个字符的文本区域;
填充模块,用于对所有文本区域的像素进行同色覆盖;
裁剪模块,用于对***图像进行裁剪,得到包含所有文本区域在内的圆形图像,其中,圆形图像的半径不大于圆形***半径;
二值化模块,用于将圆形图像转换为灰度图像后进行二值化处理,得到二值化图像;
遍历模块,用于在二值化图像中以中心点为圆心、遍历半径所形成的圆周上,基于预设遍历规则,确定目标像素点以及目标像素点的像素值和坐标;
分组模块,用于根据目标像素点的像素值,对目标像素点进行分组,得到目标像素点连续且均为目标像素值的像素点分组,其中,像素点分组的分组数量与圆形***的类型有关;
偏向角度计算模块,用于根据任意一个像素点分组中的第一个目标像素点和最后一个目标像素点的坐标以及圆形***半径,计算***图像的偏向角度。
在一个实施例中,分组模块具体包括:
分组单元,用于根据目标像素点的像素值,对像素值为目标像素值且连续的目标像素点进行分组,得到均包含设定数量的目标像素点的候选分组;
循环单元,用于若候选分组的数量超过分组阈值,则增加设定数量,重新执行上述步骤,直至在同一轮分组中得到的候选分组的数量为分组阈值,将在最后一轮分组中得到的候选分组作为像素点分组,其中,分组阈值根据圆形***的类型确定。
在一个实施例中,偏向角度计算模块具体通过以下式(1)计算得到偏向角度:
式(1)
其中,A为偏向角度,为第一个目标像素点的坐标,/>为最后一个目标像素点的坐标,R为圆形***半径。
在一个实施例中,任意相邻两个目标像素点为等间距的。
在一个实施例中,遍历模块具体通过以下式(2)计算得到任意一个目标像素点的坐标:
式(2)
其中,为目标像素点p的坐标,/>为中心点坐标,i为目标像素点p相对于圆周上的起始像素点所对应的半径划过的角度,i为不大于360的数,/>为遍历半径。
在一个实施例中,其特征在于,i=4j,且,j为不大于90的数。
在一个实施例中,五角检测模块200具体包括:
角目标检测模块,用于将***图像输入至已训练的五角检测模型中进行角区域定位,得到***图像中角目标的目标检测结果,其中,角目标的目标检测结果包括***图像中五角星的每个角的角预测框,五角检测模型基于YOLO模型构建;
第一坐标映射转换模块,用于根据五角检测模型中特征图和原图的比例关系,将角预测框映射到***图像上,根据映射后的角预测框在***图像上的所在区域,得到每个角的角区域坐标。
在一个实施例中,该装置还包括模型训练模块,模型训练模块包括:
样本获取模块,用于获取包含五角星的样本图像;
标注模块,用于对样本图像进行数据标注,生成标注文件,其中,标注文件存储有标注数据,标注数据包括五角星的每个角所对应的真实边框的坐标、尺寸和标注类别;
归一化模块,用于对选择的样本图像进行归一化处理后输入至预训练的五角检测模型;
特征提取模块,用于利用预训练的五角检测模型所包含的特征提取层对输入图像进行特征提取,得到不同尺寸的第一特征图;
特征融合模块,用于利用预训练的五角检测模型所包含的特征融合层对不同尺寸的第一特征图进行采样和特征融合,得到不同尺寸的第二特征图;
预测模块,用于利用预训练的五角检测模型所包含的预测层对输入的第二特征图进行回归预测,得到不同尺寸的第一特征图所对应的张量数据,其中,张量数据包括预测得到的每个预测边框的坐标位置、尺寸、目标类别和置信度;
损失函数计算模块,用于根据张量数据以及对应的标注数据,计算损失函数;
模型迭代模块,用于根据损失函数,经过反向传播求取梯度,使用梯度下降法进行模型参数更新,跳转至上述归一化模块以及执行后面模块的步骤,直至模型收敛,得到已训练的五角检测模型。
在一个实施例中,该模型训练模块还包括:
第一聚类模块,用于使用第一聚类算法对训练集中样本图像的真实边框进行聚类,取各类中心的边框尺寸作为先验候选框尺寸,得到先验框;
预测模块,具体用于将先验框按照预设规则预先分布到第二特征图上,根据第二特征图上锚点信息对相应的先验框进行调整,得到所有预测边框的张量数据。
在一个实施例中,样本图像包含至少一个五角星***,标注数据还包括五角星个数以及每个五角星所包含的角;
该模型训练模块还包括:
第二聚类模块,用于对得到的预测边框进行聚类,以将每5个预测边框聚为一类,得到聚类结果;
损失函数计算模块,具体用于根据张量数据和聚类结果以及对应的标注数据,计算交并比损失、分类损失、置信度损失和聚类损失,将交并比损失、分类损失、置信度损失和聚类损失以预设比例加权求和,得到网络整体损失。
在一个实施例中,文本检测模块具体包括:
字符检测模块,用于将***图像输入至已训练的文本检测模型中进行字符区域定位,得到***图像中字符目标的目标检测结果,其中,字符目标的目标检测结果包括***图像中每个字符的字符预测框,文本检测模型基于YOLO模型构建;
第二坐标映射转换模块,用于根据文本检测模型中特征图和原图的比例关系,将字符预测框映射到***图像上,根据映射后的字符预测框在***图像上的所在区域,得到每个字符的文本区域坐标。
本申请通过更多元素精准的定位圆形***的中心点及半径,以及通过精准的对***中每个文字区域进行像素级精准覆盖同时更精准的判别起始文字位置和终点位置,进一步计算出了***的偏向角度或倾斜角度,为后续精准的进行极坐标变换以及识别文本打下了扎实精准的基础。而文本精准识别可以应用在各种不同领域,例如银行***、保险***等金融领域的审批环节等不局限于此。
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图6所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述方法实施例中的各个步骤。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述方法实施例中的各个步骤。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取包含圆形***的***图像;
定位位于圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;
根据所有角的角区域坐标,计算出圆形***的中心点坐标。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取包含圆形***的***图像;
定位位于圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;
根据所有角的角区域坐标,计算出圆形***的中心点坐标。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种圆形***数据的获取方法,其特征在于,所述方法包括:
获取包含圆形***的***图像;
定位位于所述圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;
根据所有角的角区域坐标,计算出所述圆形***的中心点坐标;
根据所述圆形***的中心点坐标、角区域坐标和预设的***设计参数、五角星设计参数,计算出圆形***半径;
检测并定位所述圆形***中每个字符的文本区域;
对所有文本区域的像素进行同色覆盖;
对所述***图像进行裁剪,得到包含所有文本区域在内的圆形图像,其中,所述圆形图像的半径不大于所述圆形***半径;
将所述圆形图像转换为灰度图像后进行二值化处理,得到二值化图像;
在所述二值化图像中以所述圆形***的中心点为圆心、遍历半径所形成的圆周上,基于预设遍历规则,确定目标像素点以及所述目标像素点的像素值和坐标;
根据所述目标像素点的像素值,对所述目标像素点进行分组,得到目标像素点连续且均为目标像素值的像素点分组,其中,所述像素点分组的分组数量与所述圆形***的类型有关;
根据任意一个所述像素点分组中的第一个目标像素点和最后一个目标像素点的坐标以及所述圆形***半径,计算所述***图像的偏向角度。
2.根据权利要求1所述的方法,其特征在于,所述根据所述圆形***的中心点坐标、角区域坐标和预设的***设计参数、五角星设计参数,计算出圆形***半径,包括:
根据所述圆形***的中心点坐标和角区域坐标,计算所述圆形***的中心点到所述五角星的任意一个角的距离;根据预设的***设计参数、五角星设计参数以及所述距离,计算出圆形***半径;
或者,
根据所述圆形***的中心点坐标和角区域坐标,计算所述圆形***的中心点到所述五角星的每个角的距离;对得到的五个距离求距离均值;根据预设的***设计参数、五角星设计参数以及所述距离均值,计算出圆形***半径;
其中,所述***设计参数为圆形***设计直径,所述五角星设计参数为五角星的最小外接圆的设计直径;或,所述***设计参数为圆形***设计半径,所述五角星设计参数为五角星的最小外接圆的设计半径。
3.根据权利要求1所述的方法,其特征在于,所述圆形***的中心点坐标通过以下式(3)计算得到:
式(3)
其中,(x0,y0)为圆形***的中心点坐标,(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)、(x5,y5)为五个角区域的中心点坐标。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标像素点的像素值,对所述目标像素点进行分组,得到目标像素点连续且均为目标像素值的像素点分组,包括:
根据所述目标像素点的像素值,对像素值为目标像素值且连续的目标像素点进行分组,得到均包含设定数量的目标像素点的候选分组;
若所述候选分组的数量超过分组阈值,则增加设定数量,重新执行上述步骤,直至在同一轮分组中得到的候选分组的数量为所述分组阈值,将在最后一轮分组中得到的所述候选分组作为像素点分组,其中,所述分组阈值根据所述圆形***的类型确定。
5.根据权利要求1所述的方法,其特征在于,所述***图像的偏向角度通过以下式(1)计算得到:
式(1)
其中,A为偏向角度,为第一个目标像素点的坐标,/>为最后一个目标像素点的坐标,R为所述圆形***半径。
6.根据权利要求1所述的方法,其特征在于,任意相邻两个目标像素点为等间距的。
7.根据权利要求1所述的方法,其特征在于,任意一个目标像素点的坐标通过以下式(2)计算得到:
式(2)
其中,为目标像素点p的坐标,/>为圆形***的中心点坐标,i为目标像素点p相对于圆周上的起始像素点所对应的半径划过的角度,i为不大于360的数,/>为所述遍历半径。
8.根据权利要求7所述的方法,其特征在于,i=4j,且,j为不大于90的数。
9.根据权利要求1所述的方法,其特征在于,所述定位位于所述圆形***中间区域的五角星的每个角,得到每个角的角区域坐标,包括:
将所述***图像输入至已训练的五角检测模型中进行角区域定位,得到所述***图像中角目标的目标检测结果,其中,所述角目标的目标检测结果包括所述***图像中五角星的每个角的角预测框,所述五角检测模型基于YOLO模型构建;
根据五角检测模型中特征图和原图的比例关系,将所述角预测框映射到所述***图像上,根据映射后的角预测框在所述***图像上的所在区域,得到每个角的角区域坐标。
10.根据权利要求9所述的方法,其特征在于,所述五角检测模型通过以下步骤训练得到:
获取包含五角星的样本图像;
对所述样本图像进行数据标注,生成标注文件,其中,所述标注文件存储有标注数据,所述标注数据包括五角星的每个角所对应的真实边框的坐标、尺寸和标注类别;
对选择的样本图像进行归一化处理后输入至预训练的五角检测模型;
利用预训练的五角检测模型所包含的特征提取层对输入图像进行特征提取,得到不同尺寸的第一特征图;
利用预训练的五角检测模型所包含的特征融合层对所述不同尺寸的第一特征图进行采样和特征融合,得到不同尺寸的第二特征图;
利用预训练的五角检测模型所包含的预测层对输入的第二特征图进行回归预测,得到不同尺寸的第一特征图所对应的张量数据,其中,所述张量数据包括预测得到的每个预测边框的坐标位置、尺寸、目标类别和置信度;
根据所述张量数据以及对应的标注数据,计算损失函数;
根据所述损失函数,经过反向传播求取梯度,使用梯度下降法进行模型参数更新,重复上述对选择的样本图像进行归一化处理后输入至预训练的五角检测模型及后面步骤,直至模型收敛,得到已训练的五角检测模型。
11.根据权利要求10所述的方法,其特征在于,在对选择的样本图像进行归一化处理后输入至预训练的五角检测模型之前,五角检测模型的训练步骤还包括:
使用第一聚类算法对训练集中样本图像的真实边框进行聚类,取各类中心的边框尺寸作为先验候选框尺寸,得到先验框;
所述利用预训练的五角检测模型所包含的预测层对输入的第二特征图进行回归预测,得到不同尺寸的第一特征图所对应的张量数据,包括:
将所述先验框按照预设规则预先分布到所述第二特征图上,根据所述第二特征图上锚点信息对相应的先验框进行调整,得到所有预测边框的张量数据。
12.根据权利要求10所述的方法,其特征在于,所述样本图像包含至少一个五角星***,所述标注数据还包括五角星个数以及每个五角星所包含的角;
在得到所述张量数据之后,所述五角检测模型训练步骤还包括:
对得到的预测边框进行聚类,以将每5个预测边框聚为一类,得到聚类结果;
所述根据所述张量数据以及对应的标注数据,计算损失函数,包括:
根据所述张量数据和聚类结果以及对应的标注数据,计算交并比损失、分类损失、置信度损失和聚类损失,将所述交并比损失、分类损失、置信度损失和聚类损失以预设比例加权求和,得到网络整体损失。
13.根据权利要求1所述的方法,其特征在于,所述检测并定位所述圆形***中每个字符的文本区域,包括:
将所述***图像输入至已训练的文本检测模型中进行字符区域定位,得到所述***图像中字符目标的目标检测结果,其中,所述字符目标的目标检测结果包括所述***图像中每个字符的字符预测框,所述文本检测模型基于YOLO模型构建;
根据所述文本检测模型中特征图和原图的比例关系,将所述字符预测框映射到所述***图像上,根据映射后的字符预测框在***图像上的所在区域,得到每个字符的文本区域坐标。
14.一种圆形***数据的获取装置,其特征在于,所述装置包括:
图像获取模块,用于获取包含圆形***的***图像;
五角检测模块,用于定位位于所述圆形***中间区域的五角星的每个角,得到每个角的角区域坐标;
中心点确定模块,用于根据所有角的角区域坐标,计算出所述圆形***的中心点坐标;
圆形***半径计算模块,用于根据所述圆形***的中心点坐标、角区域坐标和预设的***设计参数、五角星设计参数,计算出圆形***半径;
文本检测模块,用于检测并定位所述圆形***中每个字符的文本区域;
填充模块,用于对所有文本区域的像素进行同色覆盖;
裁剪模块,用于对所述***图像进行裁剪,得到包含所有文本区域在内的圆形图像,其中,所述圆形图像的半径不大于所述圆形***半径;
二值化模块,用于将所述圆形图像转换为灰度图像后进行二值化处理,得到二值化图像;
遍历模块,用于在所述二值化图像中以所述圆形***的中心点为圆心、遍历半径所形成的圆周上,基于预设遍历规则,确定目标像素点以及所述目标像素点的像素值和坐标;
分组模块,用于根据所述目标像素点的像素值,对所述目标像素点进行分组,得到目标像素点连续且均为目标像素值的像素点分组,其中,所述像素点分组的分组数量与所述圆形***的类型有关;
偏向角度计算模块,用于根据任意一个所述像素点分组中的第一个目标像素点和最后一个目标像素点的坐标以及所述圆形***半径,计算所述***图像的偏向角度。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。
16.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。
CN202310684211.0A 2023-06-12 2023-06-12 圆形***数据的获取方法、装置、设备及存储介质 Active CN116416626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310684211.0A CN116416626B (zh) 2023-06-12 2023-06-12 圆形***数据的获取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310684211.0A CN116416626B (zh) 2023-06-12 2023-06-12 圆形***数据的获取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116416626A CN116416626A (zh) 2023-07-11
CN116416626B true CN116416626B (zh) 2023-08-29

Family

ID=87054700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310684211.0A Active CN116416626B (zh) 2023-06-12 2023-06-12 圆形***数据的获取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116416626B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704541B (zh) * 2023-08-09 2023-10-27 易签链(深圳)科技有限公司 一种受控签署的电子公章制作和使用方法
CN117671694B (zh) * 2023-12-04 2024-06-14 合肥大智慧财汇数据科技有限公司 一种基于检测和融合的文档***预处理方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814716A (zh) * 2020-07-17 2020-10-23 上海眼控科技股份有限公司 ***去除方法、计算机设备和可读存储介质
WO2021115490A1 (zh) * 2020-06-22 2021-06-17 平安科技(深圳)有限公司 面向复杂环境的***文字检测识别方法、装置及介质
CN113012014A (zh) * 2021-02-19 2021-06-22 上海益高信息技术有限公司 一种光学水印防伪***的电子解码方法
CN113469888A (zh) * 2021-07-08 2021-10-01 江西金格科技股份有限公司 一种圆形电子***倾斜角度矫正的方法及装置
CN113673509A (zh) * 2021-07-28 2021-11-19 华南理工大学 一种基于图像文本的仪表检测分类方法
CN113887337A (zh) * 2021-09-15 2022-01-04 浪潮云信息技术股份公司 具有弯曲文本的***识别方法、***及存储介质
CN114782953A (zh) * 2022-04-13 2022-07-22 易签链(深圳)科技有限公司 一种***智能识别方法
CN114898083A (zh) * 2021-12-02 2022-08-12 上海通办信息服务有限公司 一种将圆形红色公章智能摆正的方法、装置和设备
WO2022198969A1 (zh) * 2021-03-25 2022-09-29 深圳市商汤科技有限公司 ***文本识别方法、装置、设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380921A (zh) * 2020-10-23 2021-02-19 西安科锐盛创新科技有限公司 一种基于车联网的道路检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021115490A1 (zh) * 2020-06-22 2021-06-17 平安科技(深圳)有限公司 面向复杂环境的***文字检测识别方法、装置及介质
CN111814716A (zh) * 2020-07-17 2020-10-23 上海眼控科技股份有限公司 ***去除方法、计算机设备和可读存储介质
CN113012014A (zh) * 2021-02-19 2021-06-22 上海益高信息技术有限公司 一种光学水印防伪***的电子解码方法
WO2022198969A1 (zh) * 2021-03-25 2022-09-29 深圳市商汤科技有限公司 ***文本识别方法、装置、设备及计算机可读存储介质
CN113469888A (zh) * 2021-07-08 2021-10-01 江西金格科技股份有限公司 一种圆形电子***倾斜角度矫正的方法及装置
CN113673509A (zh) * 2021-07-28 2021-11-19 华南理工大学 一种基于图像文本的仪表检测分类方法
CN113887337A (zh) * 2021-09-15 2022-01-04 浪潮云信息技术股份公司 具有弯曲文本的***识别方法、***及存储介质
CN114898083A (zh) * 2021-12-02 2022-08-12 上海通办信息服务有限公司 一种将圆形红色公章智能摆正的方法、装置和设备
CN114782953A (zh) * 2022-04-13 2022-07-22 易签链(深圳)科技有限公司 一种***智能识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
You Only Look Once: Unified, Real-Time Object Detection;Joseph Redmon等;《arXiv:1506.02640v5》;第1-10页 *

Also Published As

Publication number Publication date
CN116416626A (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN111723860B (zh) 一种目标检测方法及装置
CN116416626B (zh) 圆形***数据的获取方法、装置、设备及存储介质
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
US11042742B1 (en) Apparatus and method for detecting road based on convolutional neural network
CN109815997A (zh) 基于深度学习的识别车辆损伤的方法和相关装置
CN112418278A (zh) 一种多类物体检测方法、终端设备及存储介质
CN110781882A (zh) 一种基于yolo模型的车牌定位和识别方法
CN111191649A (zh) 一种识别弯曲多行文本图像的方法与设备
CN111178290A (zh) 一种签名验证方法和装置
CN111126243B (zh) 一种图像数据检测方法、装置以及计算机可读存储介质
CN115457408A (zh) 一种土地监测方法、装置、电子设备及介质
CN110580507B (zh) 一种城市肌理分类识别方法
CN107578003A (zh) 一种基于地理标记图像的遥感图像迁移学习方法
CN114155285A (zh) 基于灰度直方图的图像配准方法
Voelsen et al. Investigations on feature similarity and the impact of training data for land cover classification
CN112418262A (zh) 车辆再识别的方法、客户端及***
CN116958221A (zh) 细胞数据分析方法、装置、设备及存储介质
CN116612272A (zh) 一种图像处理智能数字化的检测***及其检测方法
CN114882490B (zh) 一种基于点引导定位的无受限场景车牌检测分类方法
CN115953371A (zh) 一种绝缘子缺陷检测方法、装置、设备和存储介质
CN110895849A (zh) 冠字号切割定位方法、装置、计算机设备及存储介质
CN112328913A (zh) 任务处理方法以及装置
CN110458070A (zh) 基于机动车年检检验表图片识别检验次数的方法与***
Kong et al. A Mountain Summit Recognition Method Based on Improved Faster R‐CNN
CN116385818B (zh) 云检测模型的训练方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant