CN110084229A - 一种***检测方法、装置、设备及可读存储介质 - Google Patents

一种***检测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110084229A
CN110084229A CN201910228663.1A CN201910228663A CN110084229A CN 110084229 A CN110084229 A CN 110084229A CN 201910228663 A CN201910228663 A CN 201910228663A CN 110084229 A CN110084229 A CN 110084229A
Authority
CN
China
Prior art keywords
seal
doubtful
region
similarity
true
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910228663.1A
Other languages
English (en)
Other versions
CN110084229B (zh
Inventor
谢名亮
殷兵
柳林
胡金水
崔瑞莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201910228663.1A priority Critical patent/CN110084229B/zh
Publication of CN110084229A publication Critical patent/CN110084229A/zh
Application granted granted Critical
Publication of CN110084229B publication Critical patent/CN110084229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种***检测方法、装置、设备及可读存储介质,首先获取待检测图像,然后从待检测图像中检测疑似***区域,获得疑似***区域集合,最后基于真实***的固有特征,从疑似***区域集合中确定真实***区域。本申请提供的***检测方法能够基于***的固有特征自动对待检测图像进行***检测,这种检测方式不但节省了人工成本,而且提高了***检测效率,并且,本申请提供的***检测方法具有较高的检测准确度。

Description

一种***检测方法、装置、设备及可读存储介质
技术领域
本申请涉及信息检测技术领域,更具体地说,涉及一种***检测方法、装置、设备及可读存储介质。
背景技术
在政府、银行、教育等行业的业务处理过程中,需要对用户提供材料的真实性进行验证,其中,***检查是一个重要环节。传统的***检查方法是人工检查,然而这种***检查方法效率低下、人工成本高。
发明内容
有鉴于此,本申请提供了一种***检测方法、装置、设备及可读存储介质,用以解决现有的人工检查方法效率低下、人工成本高的问题,其技术方案如下:
一种***检测方法,包括:
获取待检测图像;
从所述待检测图像中检测疑似***区域,获得疑似***区域集合;
基于真实***的固有特征,从所述疑似***区域集合中确定真实***区域;其中,所述真实***的固有特征包括真实***自身固有的特征和/或与真实***相关的外部固有特征。
可选的,所述基于***的固有特征,从所述疑似***区域集合中确定真实***区域,包括:
基于***符号和/或***相关关键词,从所述疑似***区域集合中确定真实***区域。
可选的,所述从所述待检测图像中检测出疑似***区域,包括:
对所述待检测图像进行预处理操作,获得预处理图像;其中,所述预处理操作用于将干扰***检测的因素去除;
通过对所述预处理图像进行形态学操作和连通域分析,获得多个独立区域,并基于独立区域的尺寸将不可能为***区域的独立区域滤除,剩余的独立区域组成所述疑似***区域集合。
可选的,所述基于***符号和/或***相关关键词,从所述疑似***区域集合中确定真实***区域,包括:
确定所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,其中,任一疑似***区域对应的***符号相似度、***相关关键词相似度分别表征该疑似***区域与预先构建的***符号库中真实***符号的相似程度、该疑似***区域的相关文本与预先构建的***相关关键词库中真实***相关关键词的相似程度;
基于所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,从所述疑似***区域集合中确定真实***区域。
可选的,所述***相关关键词包括:***周边关键词和/或***上下文关键词;
任一疑似***区域对应的***相关关键词相似度包括:该疑似***区域对应的***周边关键词相似度和/或***上下文关键词相似度;
其中,该疑似***区域对应的***周边关键词相似度、***上下文关键词相似度分别表征该疑似***区域的相关文本与预先构建的***周边关键词库中周边关键词的相似程度、该疑似***区域的相关文本与预先构建的***上下文关键词库中上下文关键词的相似程度。
可选的,确定所述疑似***区域集合中任一疑似***区域对应的***符号相似度,包括:
从该疑似***区域中检测候选***,获得候选***集合;
针对所述候选***集合中的任一候选***,计算该候选***与所述***符号库中对应类型的各个***符号的相似度,将计算得到的相似度中的最大相似度确定为该候选***对应的相似度,以得到所述候选***集合中各个候选***对应的***符号相似度;
将所述候选***集合中各个候选***对应的***符号相似度中的最大相似度,确定为该疑似***区域对应的***符号相似度。
可选的,所述从该疑似***区域中检测候选***,获得候选***集合,包括:
从该疑似***区域中检测椭圆形区域、和/或矩形区域、和/或三角形区域,将检测出的椭圆形区域、和/或矩形区域、和/或三角形区域作为候选***组成候选***集合。
可选的,从该疑似***区域中检测椭圆形区域,包括:
获取该疑似***区域的图像;
对该疑似***区域的图像进行边缘检测,获得边缘图像;
从所述边缘图像中检测轮廓,获得轮廓集合;
对所述轮廓集合中的轮廓进行椭圆拟合,获得所述椭圆形区域。
可选的,从该疑似***区域中检测矩形区域,包括:
从该疑似***区域中检测直线段,获得直线段集合;
基于矩形的特征,从所述直线段集合中找出能够组成矩形的直线段组,其中,一直线段组包括四条直线段,任意两个直线段组中不存在相同直线段;
将每个直线段组中的四条直线段组成矩形区域。
可选的,从该疑似***区域中检测三角形区域,包括:
获取从该疑似***区域中检测出的直线段组成的直线段集合;
基于三角形的特征,从所述直线段集合中找出能够组成三角形的直线段组,其中,任一直线段组包括三条直线,任意两个直线段组中不存在相同直线段;
将每个直线段组中的三条直线段组成三角形区域。
可选的,确定所述疑似***区域集合中任一疑似***区域对应的***相关关键词相似度,包括:
获取该疑似***区域对应的第一目标文本和/或第二目标文本,其中,所述第一目标文本为对该疑似***区域向至少一个预设方向扩展预设倍后的区域的文本识别结果,所述第二目标文本为所述待检测图像中标题行的文本识别结果;
基于所述第一目标文本与所述***周边关键词库中每个关键词的匹配情况,确定该疑似***区域对应的***周边关键词相似度,和/或,基于所述第二目标文本与所述***上下文关键词库中每个关键词的匹配情况,确定该疑似***区域对应的***上下文关键词相似度。
可选的,所述基于所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,从所述疑似***区域集合中确定真实***区域,包括:
基于所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,确定每个疑似***区域对应的***相似度;
将***相似度大于或等于预设相似度阈值的疑似***区域确定为真实***区域。
一种***检测装置,包括:获取模块、检测模块和确定模块;
所述图像获取模块,用于获取待检测图像;
所述疑似***区域检测模块,用于从所述待检测图像中检测疑似***区域,获得疑似***区域集合;
所述真实***区域确定模块,用于基于真实***的固有特征,从所述疑似***区域集合中确定真实***区域;其中,所述真实***的固有特征包括真实***自身固有的特征和/或与真实***相关的外部固有特征。
一种***检测设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现所述***检测方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述***检测方法的各个步骤。
从上述的技术方案可以看出,本申请提供的***检测方法,首先获取待检测图像,然后从待检测图像中检测疑似***区域,获得疑似***区域集合,最后基于真实***的固有特征,从疑似***区域集合中确定真实***区域。由此可见,本申请提供的***检测方法,能够基于真实***的固有特征自动对待检测图像进行***检测,这种检测方式克服了人工检测效率低下、人工成本高的问题,同时,本申请充分考虑***的固有特征(即真实***自身固有的特征和/或与真实***相关的外部固有特征),基于***的固有特征对待检测图像进行检测使得检测结果的检测准确度较高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的***检测方法的流程示意图;
图2为本申请实施例提供的从待检测图像中检测疑似***区域,获得疑似***区域集合的流程示意图;
图3a~3c分别为本申请实施例提供的含有真实***的图像、对图3a示出的图像进行形态学操作后的图像、对图3b示出的图像进行连通域分析和切分后的图像的示意图;
图4为本申请实施例提供的基于***符号和/或***相关关键词,从疑似***区域集合中确定真实***区域的流程示意图;
图5为本申请实施例提供的确定一疑似***区域对应的***符号相似度的流程示意图;
图6a~6d为本申请实施例提供的矩形区域检测过程的示意图;
图7a~7b分别为本申请实施例提供的确定预设角度阈值、确定两条直线段的重合度的示意图;
图8a~8b为本申请实施例提供的三角形区域检测的过程示意图;
图9为本申请实施例提供的确定一疑似***区域对应的相关关键词相似度的流程示意图;
图10为本申请实施例提供的基于疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***周边关键词相似度和/或***上下文关键词相似度,从疑似***区域集合中确定真实***区域的流程示意图;
图11为本申请实施例提供的一种***检测装置的结构示意图;
图12为本申请实施例提供的一种***检测设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了能够提升***检查效率,降低人工成本,本案发明人进行了深入研究:
起初的思路是:首先采用颜色特征对待检测图像进行***区域粗定位,然后结合线段特征对***区域进行精确定位。具体地,首先根据指定待检测图像中需要检测的***颜色,对待检测图像进行色调的量化处理,然后根据***颜色对量化后的待检测图像进行***区域粗定位,得到粗定位***区域,并对粗定位***区域进行聚类,得到多个聚类区域,最后,对多个聚类区域进行形状检测,判别出***的形状,从而精确定位出***区域。
发明人经研究发现,上述***检测方案存在一些问题,具体体现在:
上述***检测方案采用颜色特征进行***区域的提取,然而,实际应用中,很多文档图像为黑白图像或灰度图像,而黑白图像、灰度图像没有颜色特征,这使得上述***检测方案应用范围受限,即上述***检测方案不具通用性;另外,受图像采集设备、光照、环境等因素的影响,待检测图像上的***易受到干扰,导致颜色特征不明显,颜色特征不明显会导致***检测准确率较低。
鉴于上述***检测方案存在的问题,本案发明人进行了深入研究,最终提出了一种效果较好的***检测方法,该***检测方法可以应用于终端(比如智能计算机),也可以应用于服务器,适用于需要对文档进行***检测的场景,例如,银行在业务处理过程中,需要通过检测***,对用户提供材料的真实性进行验证。
接下来通过下述实施例对本申请实施例提供的***检测方法进行介绍。
请参阅图1,示出了本申请实施例提供的***检测方法的流程示意图,可以包括:
步骤S101:获取待检测图像。
其中,待检测图像为需要进行***检测的图像,比如包含***的文档图像,一般的,待检测图像可通过多种途径获得,比如扫描仪、数码相机、文档处理***等。
步骤S102:从待检测图像中检测疑似***区域,获得疑似***区域集合。
其中,疑似***区域为待检测图像中可能包含***区域的区域。
步骤S103:基于真实***的固有特征,从疑似***区域集合中确定真实***区域。
其中,真实***的固有特征包括真实***自身固有的特征和/或与真实***相关的外部固有特征。需要说明的是,***的固有特征为***固有的特征,其不会因为图像的改变(比如彩色图像变成灰度图像)而消失,前面提及的颜色特征为非固有特征,因为颜色特征只在彩色图像中才有,而黑白图像、灰度图像中没有。
在一种可能的实现方式中,真实***的固有特征可以包括***符号和/或***相关关键词,即,可基于***符号和/或***相关关键词,从疑似***区域集合中确定真实***区域。
其中,***符号为***内部的符号,比如,***内的特征形状符号(比如国徽、五角星、矩形框等)、***内的文本图像符号(比如“***”、“专用章”等)。
其中,***相关关键词为与***相关的关键词,其可以包括***周边关键词和/或***上下文关键词。
***周边关键词指的是经常出现在***周边的关键词,***周边关键词有普通关键词,比如“(章)”、“章”、“盖章”、“xx公司”、“xx单位”,需要说明的是,“公司”、“单位”等后缀名称也是关键词,***周边关键词还有日期关键词,比如“xx年xx月xx日”中的“年”、“月”、“日”。***上下文关键词可以包括待检测图像中的标题中频繁出现的关键词,比如,“xx通知函”、“xx证明”中的“通知函”、“证明”等。
可以理解的是,若某个疑似***区域包含的疑似***符号与真实***符号的相似度和/或该疑似***区域的相关文本与真实***符号的相关关键词的相似度比较高,则该疑似***区域很可能就为***区域,基于该思想,本申请可基于***符号和/或***相关关键词,从疑似***区域集合中确定真实***区域。
从上述的技术方案可以看出,本申请提供的***检测方法,在获取到待检测图像后,先从待检测图像中检测疑似***区域,获得疑似***区域集合,然后基于***的固有特征(比如***符号和/或***相关关键词),从疑似***区域集合中确定真实***区域。本申请提供的***检测方法能够基于***特征信息自动对待检测图像进行***检测,这种检测方式不但节省了人工成本,而且提高了***检测效率以及***检测准确度,同时,本申请充分考虑***的固有特征(比如***符号和/或***相关关键词),基于***的固有特征对待检测图像进行检测使得检测结果的检测准确度较高。
在本申请的另一实施例中,对上述实施例中的“步骤S102:从待检测图像中检测疑似***区域,获得疑似***区域集合”进行介绍。
请参阅图2,示出了从待检测图像中检测疑似***区域,获得疑似***区域集合的流程示意图,可以包括:
步骤S201:对待检测图像进行预处理操作,获得预处理图像。
其中,预处理操作用于将干扰***检测的因素去除。本实施例中的预处理操作可以包括图像转换、图像倾斜矫正、图像光照调整、干扰直线段滤除中的一种或多种,优选为同时包括图像倾斜矫正、图像光照调整、干扰直线段滤除,需要说明的是,若待检测图像为彩色图像则需要包括图像转换操作。
图像获取方式的多样化,导致获取的待检测图像的形式有多种,比如彩色图像(比如通过彩色扫描机扫描获得)、灰度图像等。为了能够对各种形式的图像进行***检测,本实施例统一将非灰度图像转换为灰度图像,将非灰度图像转换为灰度图像的过程为现有技术,本实施例在此不做赘述。
为了后续能够准确地从待检测图像中提取出疑似***区域,可对待检测图像进行倾斜矫正和/或图像光照调整。
在一种可能的实现方式中,可采用基于边界线的校正方法对待检测图像 (灰度图像)进行倾斜矫正。具体的,首先,对待检测图像进行边界线段检测,边界线段指的是待检测图像中的文档边界与背景交界处的线段,由此可得到上、下、左、右边界线段;然后,分别计算上、下、左、右边界线段中水平线段与0度的第一角度偏差,以及中垂直线段与90度的第二角度偏差,并对第一角度偏差和第二角度偏差计算平均角度偏差;接着,根据平均角度偏差确定倾斜校正角度,最后,根据倾斜校正角度对待检测图像进行旋转,得到校正后的待检测图像。需要说明的是,若基于边界线的倾斜校正方法失败,则可基于待检测图像中文字的走向进行倾斜校正,或者,基于待检测图像中的表格、页眉或页脚线段的方向进行倾斜矫正。
在一种可能的实现方式中,对待检测图像进行光照调整的方法可以为直方图均衡化、自动色阶、自动颜色等方法中的任意一种,对待检测图像进行光照调整的目的是,解决由于待检测图像过亮或过暗等原因导致图像细节不明显的问题。
待检测图像中可能存在干扰***检测的直线段,例如,文档扫描过程中,可能由于机器故障或人为操作不当等原因导致待检测图像中出现过长的直线段,在这种情况下,该过长的直线段可能会对***检测造成干扰。有鉴于此,可对待检测图像进行直线段检测,并将影响***检测的直线段滤除。
具体的,首先,基于直线段检测算法(比如,Hough线段检测算法)检测预处理图像包括的直线段;然后,从检测出的直线段中确定长度大于或等于预设长度阈值的直线段,作为影响***检测的直线段;最后,将长度大于或等于预设长度阈值的直线段滤除。其中,预设长度阈值基于预处理图像中文档页面的长度确定,比如,预设长度阈值可以为预处理图像中文档页面长度的M1(比如1/5)倍。
步骤S202:通过对预处理图像进行形态学操作和连通域分析,获得多个独立区域,并基于独立区域的尺寸将不可能为***区域的独立区域滤除,剩余的独立区域组成疑似***区域集合。
具体地,可以对预处理图像进行形态学操作(膨胀、腐蚀等操作)和连通域分析,使得预处理图像中的文字、插图、***等区域形成一个个相对独立的区域,即获得多个相对独立区域,请参阅图3,图3a为一文档图像,对图3a进行形态学操作后,可获得图3b,如图3b所示,图像中的字符、插图、***等区域形成了多个相对独立区域,进一步的,为了避免处理过程中字符、插图或***之间有粘连,可以进一步进行联通域分析和切分,如图3c所示,经过联通域分析和切分,可获得多个独立区域,一般情况下,独立区域为矩形区域。
在一种可能的实现方式中,可直接将获得的多个独立区域组成的集合作为疑似***区域集合,但考虑到数据处理量较大,为了降低后续的数据处理量以提高后续数据处理的速率和效率,在另一种较优的实现方式中,在获得多个独立区域后,可基于独立区域的尺寸将不可能为***区域的独立区域(即明显不是***区域的独立区域)滤除。
具体的,可将长度小于预设长度阈值和/或高度小于预设高度阈值的独立区域确定为非***区域,并将所有非***区域滤除,剩余的独立区域组成疑似***区域集合。其中,预设长度阈值可基于滤除直线段后的图像中文档页面的长度确定,比如预设长度阈值可以为文档页面长度的M2(比如1/20)倍,预设高度阈值可基于滤除直线段后的图像中文档页面的高度确定,比如预设高度阈值可以为文档页面高度的M3(比如1/20)倍。
在获得疑似***集合后,需进一步从***区域集合中确定真实***区域,请参阅图4,示出了基于***符号和/或***相关关键词,从疑似***区域集合中确定真实***区域的实现过程的流程示意图,具体可以包括:
步骤S401:确定疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度。
其中,任一疑似***区域对应的***符号相似度表征该疑似***区域与预先构建的***符号库中真实***符号的相似程度。
需要说明的是,预先构建的***符号库中包括预先收集的大量真实***的***符号,每个***符号对应一属性信息,该属性信息包括***类型、符号类型,其中,***类型分为椭圆形、矩形和三角形,符号类型分为特殊形状符号和文字图像符号,特殊形状符号可以但不限为包括国徽、五角星、矩形框等,文字图像符号可以但不限为包括“***”、“专用章”等。
其中,任一疑似***区域对应的***相关关键词相似度表征该疑似***区域与预先构建的***相关关键词库中真实***相关关键词的相似程度。
进一步的,***相关关键词可以包括***周边关键词和/或***上下文关键词,相应的,预先构建的***相关关键词库包括***周边关键词库和/或***上下文关键词库。则任一疑似***区域对应的相关关键词相似度包括该疑似***区域对应的***周边关键词相似度和/或***上下文关键词相似度,该疑似***区域对应的***周边关键词相似度表征该疑似***区域的相关文本 (比如该疑似***区域包含的文本)与***周边关键词库中周边关键词的相似程度,同样的,该疑似***区域对应的上下文关键词相似度表征该疑似***区域的相关文本(比如待检测图像中标题行的文本)与***上下文关键词库中上下文关键词的相似程度。
其中,预先构建的***周边关键词库中的关键词为在含有真实***的文档中收集的、经常出现在***周边的关键词。***周边关键词库中的关键词包括两类,一类为普通关键词,比如“(章)”、“章”、“盖章”、“xx 公司”、“xx单位”,需要说明的是,“公司”、“单位”等后缀名称也是关键词,另一类为日期关键词,比如“xx年xx月xx日”中的“年”、“月”、“日”。
其中,预先构建的***上下文关键词库中的关键词为在含有真实***的文档中收集的、经常出现在文档标题中的关键词,比如“xx通知函”、“xx 证明”中的“通知函”、“证明”等。
步骤S402:基于疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,从疑似***区域集合中确定真实***区域。
由上述内容可知,任一疑似***区域对应的***符号相似度、***相关关键词相似度分别表征该疑似***区域与真实***符号的相似程度、该疑似***区域的相关文本与真实***相关关键词的相似程度,可以理解的是,一疑似***区域对应的***符号相似度和/或***相关关键词相似度越高,则表明该疑似***区域为真实***区域的可能性越大,因此,本实施例基于疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,从疑似***区域集合中确定真实***区域。
接下来对上述实施例中的“步骤S401:确定疑似***区域集合中每个疑似***区域对应的***符号相似度和/或相关关键词相似度”进行介绍。
由于疑似***区域集合中各个疑似***区域对应的***符号相似度和/或相关关键词相似度的确定方式相同,因此,以下以疑似***区域集合中的一个疑似***区域为例分别对确定疑似***区域对应的***符号相似度和确定疑似***区域对应的相关关键词相似度进行介绍。
请参阅图5,示出了确定一疑似***区域对应的***符号相似度的流程示意图,可以包括:
步骤501:从该疑似***区域中检测候选***,获得候选***集合。
具体地,常见的***包括椭圆形***、矩形***和三角形***,基于此,本实施例基于***类型从疑似***区域中检测候选***,具体的,可从该疑似***区域中检测椭圆形区域、和/或矩形区域、和/或三角形区域,将检测出的椭圆形区域、和/或矩形区域、和/或三角形区域作为候选***组成候选***集合。其中,从疑似***区域中检测椭圆形区域、矩形区域、三角形区域的具体实现过程可参见后续实施例的说明。
步骤S502:针对候选***集合中的任一候选***,计算该候选***与***符号库中对应类型的各个***符号的相似度,将计算得到的相似度中的最大相似度确定为该候选***对应的***符号相似度,以得到候选***集合中各个候选***对应的***符号相似度。
其中,计算一候选***与***符号库中一***符号的相似度的具体过程可参见后续实施例的说明。
步骤S503:将候选***集合中各个候选***对应的***符号相似度中的最大相似度,确定为该疑似***区域对应的***符号相似度。
示例性的,从一疑似***区域Ri中获得的候选***集合为{g1,g2,g3},g1 对应的***符号相似度为s1,g2对应的***符号相似度为s2,g3对应的***符号相似度为s3,则将s1、s2、s2中的最大值作为疑似***区域Ri对应的***符号相似度。
接下来分别对从一疑似***区域中检测椭圆形区域、矩形区域、三角形区域的实现过程进行说明。
首先,对从一疑似***区域中检测椭圆形区域进行介绍。
从一疑似***区域中检测椭圆形区域的实现过程包括:
步骤a1、获取该疑似***区域的图像。
步骤a2、对该疑似***区域的图像进行边缘检测,获得边缘图像。
步骤a3、从边缘图像中检测轮廓,获得轮廓集合。
其中,可采用现有技术中的边缘检测算法比如Canny算法对该疑似***区域的图像进行边缘检测。
步骤a4、对轮廓集合中的每个轮廓进行椭圆拟合,获得椭圆形区域。
接着,对从疑似***区域中检测矩形区域进行介绍。
从一疑似***区域中检测矩形区域的实现过程包括:从该疑似***区域中检测直线段,获得直线段集合;基于矩形的特征,从直线段集合中找出能够组成矩形的直线段组,其中,一直线段组包括四条直线段,任意两个直线段组中不存在相同直线段;将每个直线段组中的四条直线段组成矩形区域。
下面给出从疑似***区域中检测矩形区域的一种可能的具体实现过程:
步骤b1、从疑似***区域中检测直线段,获得直线段集合,并将直线段集合中的所有直线段的状态均设置为未访问。
具体的,可采用预设的直线段检测算法比如Hough霍夫算法检测疑似***区域的直线段,将检测出的所有直线段组成直线段集合L1,将L1中的每一条直线段的状态均设置为未访问。
步骤b2、从未访问直线段中获取一直线段作为矩形的第一边,并将该直线段的状态设置为已访问。
步骤b3、基于第一边在未访问直线段中查找矩形的第二边,其中,第二边为与第一边相对的边。
具体的,在未访问直线段中查找与第一边的角度偏差的绝对值小于预设角度阈值,且在第一边上的投影与第一边的重合度大于预设重合度的直线段,作为矩形的第二边,如图6a所示。
假设直线段集合为L1,从L1中获取一直线段,将其表示为Lm1,base,并将 Lm1,base的状态设置为已访问,将Lm1,base作为矩形的第一边,在L1中的未访问直线段中查找与第Lm1,base的角度偏差的绝对值小于预设角度阈值λ1,且在 Lm1,base上的投影与Lm1,base的重合度大于预设重合度μ1的直线段。
可选的,确定预设角度阈值λ1的方式如图7a所示,以Lm1,base所在直线作为x轴,以Lm1,base的左端点(此处以左端点为例,右端点计算过程类似)作y 轴建立直角坐标系,直角坐标系的原点为O1,沿垂直方向移动坐标系的O1点位置至Lm1,hori(L1中的未访问直线段)最近的一个端点O2处,则λ1等于Lm1,hori至x轴方向的最小夹角。
可选的,计算直线段Lm1,base与Lm1,hori(L1中的未访问直线段)的重合度的方法如图7b所示,以Lm1,base作为x轴,以Lm1,base和Lm1,hori的四个端点中的最左端点做y轴,建立直角坐标系,在一种可能的实现方式中,Lm1,hori在Lm1,base上的投影与Lm1,base的重合度为:Lm1,hori在x轴上的投影OF2与Lm1,base重合部分 F1F2的长度,占Lm1,base和Lm1,hori在x轴上投影总长度的比例:
式中,sim(Lm1,base,Lm1,hori)表示直线段Lm1,hori在Lm1,base上的投影与Lm1,base的重合度,dist(F1,F2)表示Lm1,hori在x轴上的投影OF2与Lm1,base重合部分F1F2的长度,dist(O,F3)表示Lm1,base和Lm1,hori在x轴上投影总长度,即图7b中OF3的长度,dist表示计算两点之间的欧式距离。
在另一种可能的实现方式中,Lm1,hori在Lm1,base上的投影与Lm1,base的重合度可以为Lm1,hori在x轴上的投影OF2与Lm1,base重合部分F1F2的长度,占Lm1,base在 x轴上投影长度(或者Lm1,base长度)的比例。
步骤b4、若查找到第二边,则以第一边的第一端点为起点,面向第二边的垂直方向,在未访问直线段中查找矩形的第三边。
具体的,以第一边的第一端点为起点,面向第二边的垂直方向,在未访问直线段中查找长度与第一距离的差值的绝对值最小的直线段,作为矩形的第三边。其中,第一距离为第一边的第一端点到第二边的垂直距离。
示例性的,如图6b所示,矩形的第一边为Lm1,base,第二边为Lm1,hori,第一距离为Lm1,base的第一端点P1到Lm1,hori的距离a。以Lm1,base的第一端点P1为起点,面向Lm1,hori的垂直方向,即图6b中虚线方向,在未访问直线段中查找长度与第一距离a的差值的绝对值最小的直线段,若查找到该直线段,则将其确定为矩形的第三边Lm1,left,如图6c所示。
步骤b5、若查找到第三边,则以第一边的第二端点为起点,面向第二边的垂直方向,在未访问直线段中查找矩形的第四边。
具体的,以第一边的第二端点为起点,面向第二边的垂直方向,在未访问直线段中查找长度与第二距离的差值的绝对值最小的直线段,作为矩形的第四边,其中,第二距离为第一边的第二端点到第二边的垂直距离。
示例性的,如图6c所示,矩形的第一边为Lm1,base,第二边为Lm1,hori,第二距离为Lm1,base的第二端点P2到Lm1,hori的距离b。以Lm1,base的第二端点P2起点,面向第二边Lm1,hori的垂直方向,即图6c中虚线方向,在未访问直线段中查找长度与第二距离b的差值的绝对值最小的直线段,若查找到该直线段,将其确定为矩形的第四边Lm1,right,如图6d所示。
步骤b6、若查找到第四边,则获得由第一边、第二边、第三边和第四边组成矩形区域,并将第二边、第三边和第四边的状态设置为已访问,然后返回步骤b2,直至所有未访问的直线段全被访问。
需要说明的是,若没有基于Lm1,base找到矩形的第二边、第三边、第四边,中的至少一条边,则转入步骤b2。
需要说明的是,上述检测过程是先找与第一边相对的边,再找与第一边垂直的两条边,需要说明的是,上述过程仅为一示例,本实施例并不限定于此,比如,还可先找与第一边垂直的两条边,再找与第一边相对的边,还可先找与第一边垂直的一条边,再找与第一边相对的边,最后找与第一边垂直的另一边,其查找过程类似,本实施例在此不作赘述。
接着,对从疑似***区域中检测三角形区域进行介绍。
从疑似***区域中检测三角形区域的实现过程可以包括:获取从该疑似***区域中检测出的直线段组成的直线段集合;
基于三角形的特征,从直线段集合中找出能够组成三角形的直线段组,其中,任一直线段组包括三条直线,任意两个直线段组中不存在相同直线段;将每个直线段组中的三条直线段组成三角形区域。
下面给出从疑似***区域中检测三角形区域的一种可能的具体实现过程:
步骤c1、从该疑似***区域中检测直线段,获得直线段集合,并将直线段集合中的所有直线段的状态均设置为未访问。
例如,采用Hough霍夫算法检测该疑似***区域的所有直线段,由检测出的所有直线段组成直线段集合L2,将L2中的每一条直线段的状态均设置为未访问。
步骤c2、从未访问直线段中获取一直线段作为三角形的第一边,并将该直线段的状态设置为已访问。
步骤c3、在未访问直线段中、以第一边的第一端为起点的直线中查找三角形的第二边。
可选的,一种查找三角形的第二边的方法为:在未访问直线段中、以第一边的第一端点为起点的直线段中,查找与第一边的关系满足第一条件的直线段,作为三角形的第二边。其中,第一条件为:沿着第一边的第二端点的方向、与第一边的夹角与第一预设角度的差值的绝对值小于第一角度阈值。
示例性的,如图8a所示,选择直线段集合L2中的一条直线段作为三角形的第一边,将其表示为Lm2,base,将Lm2,base的状态设置为已访问,假设直线段Lm2,base的第一端点为q1,第二端点为q2,则如图8a所示,以q1为起点的直线段Lm2,left沿着第二端点q2方向(即虚线箭头方向),与第一边Lm2,base的夹角为图8a所示的Lm2,base与Lm2,left的夹角,记为Δ1,当该夹角满足|Δ11|<ε1时,将该Lm2,left作为三角形的第二边,其中,θ1为第一预设角度,ε1为第一角度阈值。
步骤c4、若查找到第二边,则在未访问直线段中、以第一边的第二端点为起点的直线段中查找三角形的第三边。
可选的,一种查找三角形的第三边的方法为:在未访问直线段中、以第一边的第二端点为起点的直线段中,查找与第一边的关系满足第二条件的直线段,作为三角形的第三边。其中,第二条件为:沿着第一边的第一端点的方向,与第一边的夹角与第二预设角度的差值的绝对值小于第二角度阈值。其中,第三边的终点与第二边的终点必须在第一边的同侧。
示例性的,如图8b所示,假设三角形的第一边和第二边分别为Lm2,base和 Lm2,left,直线段Lm2,base的第一端点为q1,第二端点为q2,则如图8b所示,以q2为端点的直线段Lm2,right沿着q1方向(即虚线箭头方向)与第一边Lm2,base的夹角为图8b所示的Lm2,base与Lm2,right的夹角,记为Δ2,当该夹角满足|Δ22|<ε2时,将该Lm2,right作为三角形的第三边,其中,θ2为第二预设角度,ε2为第二角度阈值。
需要说明的是,上述第一预设角度θ1和第二预设角度θ2可基于常用三角形***的角度确定,第一角度阈值ε1和第二角度阈值ε2根据具体情况设置,比如,可设置ε1=ε2=5°。
步骤c5、若查找到第三边,则获得由第一边、第二边和第三边组成的三角形区域,然后返回步骤c2,直至所有未访问的直线段全被访问。
需要说明的是,若没有基于Lm2,base找到三角形的第二边、第三边中的至少一条边,则转入步骤c2。
通过上述过程可获得候选***集合,获得候选***集合后,需要计算候选***集合中的每个候选***与***符号库中对应类型的***符号的相似度。接下对计算一候选***与***符号库中一***符号的相似度进行介绍。
在一种可能的实现方式中,计算一候选***与***符号库中一***符号的相似度的实现过程可以包括:
步骤d1、从该候选***提取特征点,获得第一特征点集合,并从***符号库中的该***符号提取特征,获得第二特征点集合。
鉴于SIFT(Scale-invariant feature transform,尺度不变特征变换)算法对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性,本实施例优选为采用SIFT算法进行特征点提取,当然,本实施例并不限定于此,也可采用其它的特征点提取算法进行特征点提取。
步骤d2、针对第一特征点集合中的任一特征点,从第二特征点集合中确定该特征点的最邻近点和次邻近点,并基于该特征点的最邻近点与该特征点的距离以及该特征点的次邻近点与该特征点的距离,确定该特征点的匹配结果,以得到第一特征点集合中每个特征点的匹配结果。
假设从该候选***提取的第一特征点集合为Pg,从***符号库中该***符号提取的第二特征点集合为Xk,针对Pg中的任一点p,从Xk中确定与p欧式距离最短的点作为p的最近邻点,并从Xk中确定与p欧式距离次短的点作为p的次近邻点,p的最近邻点与p的欧式距离表示为d1,p的次近邻点与p 的欧式距离表示为d2,最邻近点与次邻近点的欧式距离比率表示为r,且 r=d1/d2,若r<ratio,则对特征点p匹配成功,否则,对特征点p匹配失败,可选的,取ratio=0.5。
步骤d3、基于第一特征点集合中每个特征点的匹配结果,确定第一特征点集合中成功匹配的特征点的数量。
任一特征点的匹配结果用于指示该特征点是否匹配成功,通过第一特征点集合中各个特征点的匹配结果可获得第一特征点集合中成功匹配的特征点的数量。
步骤d4、基于第一特征点集合中成功匹配的特征点的数量,确定该候选***与***符号库中该***符号的相似度。
假设第一特征点集合中成功匹配的特征点的数量为T1,则候选***与***符号库中***符号的特征点匹配相似度为:
其中,sim_matchg(k)为候选***与***符号库中***符号的特征点匹配相似度,可选的,上式中的π1=5,B1=0.5,V1=10,min表示取最小值。
候选***与***符号库中的***符号的相似度,即候选***对应的***符号相似度为:
其中,simg(k)为候选***与***符号库中***符号的相似度,w1、w2为拟合比例系数,ellipse_len(g)表示拟合后椭圆形区域长度,ellipse_actlen(g) 为椭圆形区域实际长度,可选的,α=0.5,β=0.5。
以下对确定一疑似***区域对应的相关关键词相似度进行介绍。
请参阅图9,示出了确定一疑似***区域对应的相关关键词相似度的流程示意图,可以包括:
步骤S901:获取该疑似***区域对应的第一目标文本和/或第二目标文本。
其中,第一目标文本为对该疑似***区域向至少一个预设方向扩展预设倍后的区域的文本识别结果。在一种可能的实现方式中,可将该疑似***区域向上、下、左、右四个方向中的一个或多个方向扩展N倍(优选为向四个方向扩展N倍),获得扩展后的区域,可选的,N=1,对扩展后的区域进行 OCR识别即得到第一目标文本。
其中,第二目标文本为待检测图像中标题行的文本识别结果。
步骤S902:基于第一目标文本与***周边关键词库中每个关键词的匹配情况,确定该疑似***区域对应的***周边关键词相似度,和/或,基于第二目标文本与***上下文关键词库中每个关键词的匹配情况,确定该疑似***区域对应的***上下文关键词相似度。
具体的,可将第一目标文本与***周边关键词库中的每个关键词匹配,获得第一目标文本对应于***周边关键词库中每个关键词的匹配结果,和/或,将第二目标文本与***上下文关键词库中的每个关键词匹配,获得第二目标文本对应于***上下文关键词库中每个关键词的匹配结果,然后,基于第一目标文本对应于***周边关键词库中每个关键词的匹配结果,和/或第二目标文本对应于***上下文关键词库中每个关键词的匹配结果,确定该疑似***区域对应的***周边关键词相似度和/或***上下文关键词相似度。
进一步的,可基于第一目标文本对应于***周边关键词库中每个关键词的匹配结果,确定***周边关键词库中与第一目标文本成功匹配的关键词的数量T2,和/或,基于第二目标文本对应于***上下文关键词库中每个关键词的匹配结果,确定***上下文关键词库中与第二目标文本成功匹配的关键词的数量T3;基于***周边关键词库中与第一目标文本成功匹配的关键词的数量T2确定该疑似***区域对应的***周边关键词相似度,和/或,基于***上下文关键词库中与第二目标文本成功匹配的关键词的数量T3确定该疑似***区域对应的***上下文关键词相似度。
可以理解的是,***相关关键词库中与目标文本成功匹配的关键词的数量越多,表明该疑似***区域为真实***区域的可能性越大。
在一种可能的实现方式中,该疑似***区域对应的***周边关键词相似度可通过下式确定:
其中,simout为该疑似***区域对应的***周边关键词相似度。可选的,π2=1,B2=0.6,V2=3,min表示取最小值。
在一种可能的实现方式中,该疑似***区域对应的***上下文关键词相似度可通过下式确定:
其中,simcontest为疑似***区域对应的***上下文关键词相似度,可选的,π3=1,B3=0.3,V3=5,min表示取最小值。
可以理解的是,疑似***区域对应的***周边关键词相似度和/或***上下文关键词相似度越大,表明该疑似***区域为真实***区域的可能性越大。
基于上述实施例,可确定出疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***周边关键词相似度和/或***上下文关键词相似度。接下来对基于疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***周边关键词相似度和/或***上下文关键词相似度,从疑似***区域集合中确定真实***区域进行介绍。
请参阅图10,示出了基于疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***周边关键词相似度和/或***上下文关键词相似度,从疑似***区域集合中确定真实***区域的流程示意图,可以包括:
步骤S1001:基于疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***周边关键词相似度和/或***上下文关键词相似度,确定每个疑似***区域对应的***相似度。
其中,一个疑似***区域对应的***相似度用于表征该疑似***区域与真实***的相似程度。
可选的,对于任一疑似***区域而言,可将该疑似***区域对应的***符号相似度、***周边关键词相似度、***上下文关键词相似度中的任意一种相似度作为该疑似***区域对应的***相似度,还可将该疑似***区域对应的三种相似度中的任意两种进行融合(比如,两种相似度加权求和),融合得到的相似度作为该疑似***区域对应的***相似度,优选的,可将该疑似***区域对应的三种相似度进行融合,融合得到的相似度作为该疑似***区域对应的***相似度,在一种可能的实现方式中,可通过下式对一疑似***区域对应的三种相似度进行融合,以得到该疑似***区域对应的***相似度S:
S=α×simg(k)+β×simout+γ×simcontext (6)
式中,α为疑似***区域对应的***符号相似度simg(k)的权重,同样的,β为疑似***区域对应的***周边关键词相似度simout的权重,γ为疑似***区域对应的***上下文关键词相似度simcontext的权重,可选的,α=0.6, β=0.25,γ=0.15。
步骤S1002:基于每个疑似***区域对应的***相似度和预设相似度阈值,从疑似***区域集合中筛选出真实***区域。
具体的,若一疑似***区域对应的***相似度S大于或等于预设相似度阈值σ,则确定该疑似***区域为真实***区域,如此,可从疑似***区域集合中筛选出真实***区域。可选的,预设相似度阈值σ=0.6。需要说明的是,用户可以根据应用场景以及输出的***相似度,调整相似度阈值σ以得到准确的真实***区域。需要说明的是,在输出筛选出的真实***区域时,还可输出筛选出的真实***区域对应的***相似度。
本申请实施例提供的***检测方法能够基于***特征信息(***符号、***周边关键词、***上下文关键词)自动对待检测图像进行***检测,这种检测方式不但节省了人工成本,而且提高了***检测效率以及***检测准确度,同时,本申请充分考虑***特征信息,基于***特征信息对待检测图像进行检测使得检测结果的检测准确度较高。
本申请实施例还提供了一种***检测装置,下面对本申请实施例提供的***检测装置进行描述,下文描述的***检测装置与上文描述的***检测方法可相互对应参照。
请参阅图11,示出了本申请实施例提供的一种***检测装置的结构示意图,如图11所示,该装置可以包括:
图像获取模块1101,用于获取待检测图像。
疑似***区域检测模块1102,用于从待检测图像中检测疑似***区域,获得疑似***区域集合。
真实***区域确定模块1103,用于基于真实***的固有特征,从疑似***区域集合中确定出真实***区域,其中,所述真实***的固有特征包括真实***自身固有的特征和/或与真实***相关的外部固有特征。
本申请实施例提供的***检测装置,在获取到待检测图像后,先从待检测图像中检测疑似***区域,获得疑似***区域集合,然后基于真实***的固有特征,从疑似***区域集合中确定真实***区域。本申请提供的***检测装置能够基于***的固有特征自动对待检测图像进行***检测,这种检测方式不但节省了人工成本,而且提高了***检测效率以及***检测准确度,同时,本申请充分考虑***特征信息,基于***特征信息对待检测图像进行检测使得检测结果的检测准确度较高。
在一种可能的实现方式中,上述实施例提供的***检测设备中的疑似***区域检测模块1102可以包括:预处理模块和疑似***区域获取模块。
所述预处理模块,用于对所述待检测图像进行预处理操作,获得预处理图像;其中,所述预处理操作用于将干扰***检测的因素去除。
所述疑似***区域获取模块,用于通过对所述预处理图像进行形态学操作和连通域分析,获得多个独立区域,并基于独立区域的尺寸将不可能为***区域的独立区域滤除,剩余的独立区域组成所述疑似***区域集合。
在一种可能的实现方式中,上述实施例提供的***检测设备中的真实***区域确定模块1103可以包括:相似度确定模块和***区域筛选模块。
所述相似度确定模块,用于确定所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,其中,任一疑似***区域对应的***符号相似度、***相关关键词相似度分别表征该疑似***区域与预先构建的***符号库中真实***符号的相似程度、该疑似***区域的相关文本与预先构建的***相关关键词库中真实***相关关键词的相似程度。
所述***区域筛选模块,用于基于所述每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,从所述疑似***区域集合中确定出真实***区域。
在一种可能的实现方式中,所述***相关关键词包括***周边关键词和/ 或***上下文关键词;则任一疑似***区域对应的***相关关键词相似度包括:该疑似***区域对应的***周边关键词相似度和/或***上下文关键词相似度。
其中,该疑似***区域对应的***周边关键词相似度、***上下文关键词相似度分别表征该疑似***区域的相关文本与预先构建的***周边关键词库中周边关键词的相似程度、该疑似***区域的相关文本与预先构建的***上下文关键词库中上下文关键词的相似程度。
在一种可能的实现方式中,所述相似度确定模块可以包括候选***检测子模块、第一***符号相似度确定子模块和第二***符号相似度确定子模块。
候选***检测子模块,用于从该疑似***区域中检测候选***,获得候选***集合;
第一***符号相似度确定子模块,用于针对所述候选***集合中的任一候选***,计算该候选***与所述***符号库中对应类型的各个***符号的相似度,将计算得到的相似度中的最大相似度确定为该候选***对应的相似度,以得到所述候选***集合中各个候选***对应的***符号相似度;
第二***符号相似度确定子模块,用于将所述候选***集合中各个候选***对应的***符号相似度中的最大相似度,确定为该疑似***区域对应的***符号相似度。
在一种可能的实现方式中,候选***检测子模块,具体用于从该疑似***区域中检测椭圆形区域、和/或矩形区域、和/或三角形区域,将检测出的椭圆形区域、和/或矩形区域、和/或三角形区域作为候选***组成候选***集合。
在一种可能的实现方式中,候选***检测子模块包括椭圆形区域检测子模块。
椭圆形区域检测子模块,用于获取该疑似***区域的图像;对该疑似***区域的图像进行边缘检测,获得边缘图像;从所述边缘图像中检测轮廓,获得轮廓集合;对所述轮廓集合中的轮廓进行椭圆拟合,获得所述椭圆形区域。
在一种可能的实现方式中,候选***检测子模块还可以包括矩形区域检测子模块。
矩形区域检测子模块,用于从该疑似***区域中检测直线段,获得直线段集合;基于矩形的特征,从所述直线段集合中找出能够组成矩形的直线段组,其中,一直线段组包括四条直线段,任意两个直线段组中不存在相同直线段;将每个直线段组中的四条直线段组成矩形区域。
在一种可能的实现方式中,候选***检测子模块还可以包括三角形区域检测子模块。
三角形区域检测子模块,用于获取从该疑似***区域中检测出的直线段组成的直线段集合;基于三角形的特征,从所述直线段集合中找出能够组成三角形的直线段组,其中,任一直线段组包括三条直线,任意两个直线段组中不存在相同直线段;将每个直线段组中的三条直线段组成三角形区域。
在一种可能的实现方式中,所述相似度确定模块可以包括:***相关关键词相似度确定子模块。
***相关关键词相似度确定子模块,用于确定所述疑似***区域集合中每个疑似***区域对应的***相关关键词相似度。
进一步的,***相关关键词相似度确定子模块可以包括:文本获取子模块和关键词相似度确定子模块。
所述文本获取子模块,用于获取该疑似***区域对应的第一目标文本和/ 或第二目标文本,其中,所述第一目标文本为对该疑似***区域向至少一个预设方向扩展预设倍后的区域的文本识别结果,所述第二目标文本为所述待检测图像中标题行的文本识别结果。
所述关键词相似度确定子模块,用于基于所述第一目标文本与所述***周边关键词库中每个关键词的匹配情况,确定该疑似***区域对应的***周边关键词相似度,和/或,基于所述第二目标文本与所述***上下文关键词库中每个关键词的匹配情况,确定该疑似***区域对应的***上下文关键词相似度。
在一种可能的实现方式中,真实***区域确定模块1103,具体用于基于所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,确定每个疑似***区域对应的***相似度;将***相似度大于或等于预设相似度阈值的疑似***区域确定为真实***区域。
本申请实施例还提供了一种***检测设备,请参阅图12,示出了该***检测设备的结构示意图,该设备可以包括:至少一个处理器1201,至少一个通信接口1202,至少一个存储器1203和至少一个通信总线1204;
在本申请实施例中,处理器1201、通信接口1202、存储器1203、通信总线1204的数量为至少一个,且处理器1201、通信接口1202、存储器1203通过通信总线1204完成相互间的通信;
处理器1201可能是一个中央处理器CPU,或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器1203可能包含高速RAM存储器,也可能还包括非易失性存储器 (non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待检测图像;
从所述待检测图像中检测疑似***区域,获得疑似***区域集合;
基于真实***的固有特征,从所述疑似***区域集合中确定真实***区域;其中,所述真实***的固有特征包括真实***自身固有的特征和/或与真实***相关的外部固有特征。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待检测图像;
从所述待检测图像中检测疑似***区域,获得疑似***区域集合;
基于真实***的固有特征,从所述疑似***区域集合中确定真实***区域;其中,所述真实***的固有特征包括真实***自身固有的特征和/或与真实***相关的外部固有特征。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种***检测方法,其特征在于,包括:
获取待检测图像;
从所述待检测图像中检测疑似***区域,获得疑似***区域集合;
基于真实***的固有特征,从所述疑似***区域集合中确定真实***区域;其中,所述真实***的固有特征包括真实***自身固有的特征和/或与真实***相关的外部固有特征。
2.根据权利要求1所述的***检测方法,所述基于***的固有特征,从所述疑似***区域集合中确定真实***区域,包括:
基于***符号和/或***相关关键词,从所述疑似***区域集合中确定真实***区域。
3.根据权利要求1或2所述的***检测方法,其特征在于,所述从所述待检测图像中检测出疑似***区域,包括:
对所述待检测图像进行预处理操作,获得预处理图像;其中,所述预处理操作用于将干扰***检测的因素去除;
通过对所述预处理图像进行形态学操作和连通域分析,获得多个独立区域,并基于独立区域的尺寸将不可能为***区域的独立区域滤除,剩余的独立区域组成所述疑似***区域集合。
4.根据权利要求2所述的***检测方法,其特征在于,所述基于***符号和/或***相关关键词,从所述疑似***区域集合中确定真实***区域,包括:
确定所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,其中,任一疑似***区域对应的***符号相似度、***相关关键词相似度分别表征该疑似***区域与预先构建的***符号库中真实***符号的相似程度、该疑似***区域的相关文本与预先构建的***相关关键词库中真实***相关关键词的相似程度;
基于所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,从所述疑似***区域集合中确定真实***区域。
5.根据权利要求4所述的***检测方法,其特征在于,所述***相关关键词包括:***周边关键词和/或***上下文关键词;
任一疑似***区域对应的***相关关键词相似度包括:该疑似***区域对应的***周边关键词相似度和/或***上下文关键词相似度;
其中,该疑似***区域对应的***周边关键词相似度、***上下文关键词相似度分别表征该疑似***区域的相关文本与预先构建的***周边关键词库中关键词的相似程度、该疑似***区域的相关文本与预先构建的***上下文关键词库中关键词的相似程度。
6.根据权利要求4或5所述的***检测方法,其特征在于,确定所述疑似***区域集合中任一疑似***区域对应的***符号相似度,包括:
从该疑似***区域中检测候选***,获得候选***集合;
针对所述候选***集合中的任一候选***,计算该候选***与所述***符号库中对应类型的各个***符号的相似度,将计算得到的相似度中的最大相似度确定为该候选***对应的相似度,以得到所述候选***集合中各个候选***对应的***符号相似度;
将所述候选***集合中各个候选***对应的***符号相似度中的最大相似度,确定为该疑似***区域对应的***符号相似度。
7.根据权利要求6所述的***检测方法,其特征在于,所述从该疑似***区域中检测候选***,获得候选***集合,包括:
从该疑似***区域中检测椭圆形区域、和/或矩形区域、和/或三角形区域,将检测出的椭圆形区域、和/或矩形区域、和/或三角形区域作为候选***组成候选***集合。
8.根据权利要求7所述的***检测方法,其特征在于,从该疑似***区域中检测椭圆形区域,包括:
获取该疑似***区域的图像;
对该疑似***区域的图像进行边缘检测,获得边缘图像;
从所述边缘图像中检测轮廓,获得轮廓集合;
对所述轮廓集合中的轮廓进行椭圆拟合,获得所述椭圆形区域。
9.根据权利要求7所述的***检测方法,其特征在于,从该疑似***区域中检测矩形区域,包括:
从该疑似***区域中检测直线段,获得直线段集合;
基于矩形的特征,从所述直线段集合中找出能够组成矩形的直线段组,其中,一直线段组包括四条直线段,任意两个直线段组中不存在相同直线段;
将每个直线段组中的四条直线段组成所述矩形区域。
10.根据权利要求7所述的***检测方法,其特征在于,从该疑似***区域中检测三角形区域,包括:
获取从该疑似***区域中检测出的直线段组成的直线段集合;
基于三角形的特征,从所述直线段集合中找出能够组成三角形的直线段组,其中,任一直线段组包括三条直线,任意两个直线段组中不存在相同直线段;
将每个直线段组中的三条直线段组成所述三角形区域。
11.根据权利要求4所述的***检测方法,其特征在于,确定所述疑似***区域集合中任一疑似***区域对应的***相关关键词相似度,包括:
获取该疑似***区域对应的第一目标文本和/或第二目标文本,其中,所述第一目标文本为对该疑似***区域向至少一个预设方向扩展预设倍后的区域的文本识别结果,所述第二目标文本为所述待检测图像中标题行的文本识别结果;
基于所述第一目标文本与所述***周边关键词库中每个关键词的匹配情况,确定该疑似***区域对应的***周边关键词相似度,和/或,基于所述第二目标文本与所述***上下文关键词库中每个关键词的匹配情况,确定该疑似***区域对应的***上下文关键词相似度。
12.根据权利要求4所述的***检测方法,其特征在于,所述基于所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,从所述疑似***区域集合中确定真实***区域,包括:
基于所述疑似***区域集合中每个疑似***区域对应的***符号相似度和/或***相关关键词相似度,确定每个疑似***区域对应的***相似度;
将***相似度大于或等于预设相似度阈值的疑似***区域确定为真实***区域。
13.一种***检测装置,其特征在于,包括:获取模块、检测模块和确定模块;
所述图像获取模块,用于获取待检测图像;
所述疑似***区域检测模块,用于从所述待检测图像中检测疑似***区域,获得疑似***区域集合;
所述真实***区域确定模块,用于基于真实***的固有特征,从所述疑似***区域集合中确定真实***区域;其中,所述真实***的固有特征包括真实***自身固有的特征和/或与真实***相关的外部固有特征。
14.一种***检测设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~12中任一项所述的***检测方法的各个步骤。
15.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~12中任一项所述的***检测方法的各个步骤。
CN201910228663.1A 2019-03-25 2019-03-25 一种***检测方法、装置、设备及可读存储介质 Active CN110084229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910228663.1A CN110084229B (zh) 2019-03-25 2019-03-25 一种***检测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910228663.1A CN110084229B (zh) 2019-03-25 2019-03-25 一种***检测方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110084229A true CN110084229A (zh) 2019-08-02
CN110084229B CN110084229B (zh) 2021-10-08

Family

ID=67413492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910228663.1A Active CN110084229B (zh) 2019-03-25 2019-03-25 一种***检测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110084229B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469888A (zh) * 2021-07-08 2021-10-01 江西金格科技股份有限公司 一种圆形电子***倾斜角度矫正的方法及装置
CN113744328A (zh) * 2021-11-05 2021-12-03 极限人工智能有限公司 医学图像标记点识别方法、装置、电子设备及存储介质
CN114898382A (zh) * 2021-10-12 2022-08-12 北京九章云极科技有限公司 一种图像处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440671A (zh) * 2013-08-23 2013-12-11 方正国际软件有限公司 一种***检测方法及***
CN109447068A (zh) * 2018-10-26 2019-03-08 信雅达***工程股份有限公司 一种从图像中分离***并校准***的方法
CN109460757A (zh) * 2018-11-16 2019-03-12 上海中信信息发展股份有限公司 ***位置识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440671A (zh) * 2013-08-23 2013-12-11 方正国际软件有限公司 一种***检测方法及***
CN109447068A (zh) * 2018-10-26 2019-03-08 信雅达***工程股份有限公司 一种从图像中分离***并校准***的方法
CN109460757A (zh) * 2018-11-16 2019-03-12 上海中信信息发展股份有限公司 ***位置识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469888A (zh) * 2021-07-08 2021-10-01 江西金格科技股份有限公司 一种圆形电子***倾斜角度矫正的方法及装置
CN114898382A (zh) * 2021-10-12 2022-08-12 北京九章云极科技有限公司 一种图像处理方法及装置
CN114898382B (zh) * 2021-10-12 2023-02-21 北京九章云极科技有限公司 一种图像处理方法及装置
CN113744328A (zh) * 2021-11-05 2021-12-03 极限人工智能有限公司 医学图像标记点识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110084229B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
Fischer et al. Image orientation estimation with convolutional networks
Qureshi et al. A bibliography of pixel-based blind image forgery detection techniques
Liang et al. Flattening curved documents in images
CN110766014A (zh) 票据信息定位方法、***及计算机可读存储介质
CN110084229A (zh) 一种***检测方法、装置、设备及可读存储介质
Fabrizio et al. Text detection in street level images
WO2018233055A1 (zh) 保单信息录入的方法、装置、计算机设备及存储介质
Ezaki et al. Dewarping of document image by global optimization
EP2613294A1 (en) System and method for synthesizing portrait sketch from photo
Li et al. Keypoint-based copy-move detection scheme by adopting MSCRs and improved feature matching
CN108154132A (zh) 一种身份证文字提取方法、***及设备和存储介质
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
Ruan et al. Image stitching algorithm based on SURF and wavelet transform
Okun et al. Document skew estimation without angle range restriction
WO2018107574A1 (zh) 一种对印防伪特征的检测方法及装置
CN106033534A (zh) 基于直线检测的电子阅卷方法
Jipeng et al. Skew correction for Chinese character using Hough transform
WO2015168777A1 (en) Discrete edge binning template matching system, method and computer readable medium
CN109348084A (zh) 图像形成方法、装置、电子设备和可读存储介质
CN111881938B (zh) 一种基于盲取证技术的图像真伪鉴别的方法
Yang et al. Automatic single page-based algorithms for medieval manuscript analysis
US7251349B2 (en) Automatic table locating technique for documents
CN112800824A (zh) 扫描文件的处理方法、装置、设备及存储介质
Hong et al. The image registration technique for high resolution remote sensing image in hilly area
Dosil et al. A new radial symmetry measure applied to photogrammetry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant