CN110276352A - 标识识别方法、装置、电子设备及计算机可读存储介质 - Google Patents
标识识别方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110276352A CN110276352A CN201910578100.5A CN201910578100A CN110276352A CN 110276352 A CN110276352 A CN 110276352A CN 201910578100 A CN201910578100 A CN 201910578100A CN 110276352 A CN110276352 A CN 110276352A
- Authority
- CN
- China
- Prior art keywords
- text box
- text
- target
- height
- width
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 15
- 239000007787 solid Substances 0.000 abstract description 10
- 239000000463 material Substances 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 6
- 238000007619 statistical method Methods 0.000 description 6
- 239000003086 colorant Substances 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000012141 concentrate Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000035622 drinking Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 102100032202 Cornulin Human genes 0.000 description 2
- 241001269238 Data Species 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/09—Recognition of logos
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例公开了一种标识识别方法、装置、电子设备及计算机可读存储介质。该方法包括:检测待识别图像中的多个文本框;获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;从所述目标文本框中识别出目标对象的标识。通过本公开实施例,可以针对目标对象的待识别图像如实体店铺的店铺图像,从待识别图像中检测出来的多个文本框中选择出最有可能包含目标对象的标识的目标文本框,并进一步识别目标文本框中的文字,能够快速而准确地从待识别图像中自动识别出目标对象的标识如实体店铺名,提高了识别效率,且节省了大量的人力和物力成本。
Description
技术领域
本公开涉及计算机技术领域,具体涉及一种标识识别方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网技术的发展,越来越多的线下商户加入到线上平台。线上平台为了避免无实体店面的低质商户通过线上平台进行服务,通常会要求商户上传相对应的门面照,以证明其是实体商户。此外,还要求商户填写一系列的数据,供线上平台进行审核,例如审核其商铺店名是否与提供的数据保持一致。随着商户数量的增多,人工审核速度较慢,人均效率较低,并且消耗了大量的人力与物力。
发明内容
本公开实施例提供一种标识识别方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种标识识别方法,包括:
检测待识别图像中的多个文本框;
获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;
从所述目标文本框中识别出目标对象的标识。
结合第一方面,本公开在第一方面的第一种实现方式中,所述方法还包括:
根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框;
合并满足第二预设条件的两个相交的所述文本框。
结合第一方面和/或第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框,包括:
过滤面积小于第一预设阈值的所述文本框。
结合第一方面、第一方面的第一种实现方式和/或第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述文本框的尺寸信息包括所述文本框的高度和/或宽度。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和/或第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框,包括:
根据宽度和高度分别对所述文本框进行排序,得到两种排序结果;
根据所述两种排序结果确定所述目标文本框。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和/或第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,根据所述两种排序结果确定所述目标文本框,包括:
在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框;
在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和/或第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框,包括:
如果排名最靠前的所述第一文本框的高度大于或等于多个所述文本框的平均高度,则将最靠前的所述第一文本框确定为候选文本框;
如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度大于或等于多个所述为文本框的平均宽度,则将高度最高的所述第三文本框确定为候选文本框;
如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度小于多个所述为文本框的平均宽度,则将宽度最宽的所述第二文本框确定为候选文本框;
根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和/或第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框,包括:
在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框为位于所述待识别图像最上面的所述文本框时,将所述候选文本框确定为所述目标文本框;
在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框不为位于所述待识别图像最上面的所述文本框时,从所述候选文本框以及位于所述候选文本框之上的第四文本框中选择高度最高的所述第四文本框确定为目标文本框;
在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框为位于所述待识别图像最上面的所述文本框时,将宽度最宽的所述第二文本框确定为目标文本框;
在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框不为位于所述待识别图像最上面的所述文本框时,从宽度最宽的所述第二文本框以及位于宽度最宽的所述第二文本框之上的第五文本框中选择高度最高的所述第五文本框确定为目标文本框。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和/或第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框,包括:
如果宽度最宽的所述第二文本框的宽度与高度之比小于或等于第三预设阈值,则将所述宽度最宽的所述第二文本框确定为所述目标文本框;
如果宽度最宽的所述第二文本框的宽度与高度之比大于所述第三预设阈值,且高度最高的所述第三文本框的上边线与所述待识别图像的顶部的距离大于第四预设阈值时,则将宽度最宽的所述第二文本框确定为目标文本框;
如果高度最高的所述第三文本框的上边线与待识别图像的顶部的距离小于或等于所述第四预设阈值时,将高度最高的所述第三文本框确定为目标文本框。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式、第一方面的第七种实现方式和/或第一方面的第八种实现方式,本公开在第一方面的第九种实现方式中,检测待识别图像中的多个文本框,包括:
采用第一人工智能网络模型检测待识别图像中的多个文本框;其中,所述第一人工智能网络模型经过样本数据的预先训练。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式、第一方面的第七种实现方式、第一方面的第八种实现方式和/或第一方面的第九种实现方式,本公开在第一方面的第十种实现方式中,从所述目标文本框中识别出目标对象的标识,包括:
采用第二人工智能网络模型从所述目标文本框中识别出目标对象的标识;其中,所述第二人工智能网络模型经过样本数据的预先训练。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式、第一方面的第七种实现方式、第一方面的第八种实现方式、第一方面的第九种实现方式和/或第一方面的第十种实现方式,本公开在第一方面的第十一种实现方式中,还包括:
获取背景图像集及文字集;其中,所述背景图像集包括利用不同颜色生成的一个或多个背景图像,和/或从已有图像上截取的一个或多个背景图像;所述文字集包括采用不同颜色和/或不同字体生成的一个或多个文字
根据所述背景图像集和所述文字集生成所述样本数据;其中,所述样本数据包括所述背景图像集中的至少一个背景图像和所述文字集中的至少一个文字。第二方面,本公开实施例中提供了一种标识识别装置,包括:
检测模块,被配置为检测待识别图像中的多个文本框;
确定模块,被配置为获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;
识别模块,被配置为从所述目标文本框中识别出目标对象的标识。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,标识识别装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持标识识别装置执行上述第一方面中标识识别方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述标识识别装置还可以包括通信接口,用于标识识别装置与其他设备或通信网络通信。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
检测待识别图像中的多个文本框;
获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;
从所述目标文本框中识别出目标对象的标识。
结合第三方面,本公开在第三方面的第一种实现方式中,所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤:
根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框;
合并满足第二预设条件的两个相交的所述文本框。
结合第三方面和/或第三方面的第一种实现方式,本公开在第三方面的第二种实现方式中,根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框,包括:
过滤面积小于第一预设阈值的所述文本框。
结合第三方面、第三方面的第一种实现方式和/或第三方面的第二种实现方式,本公开在第三方面的第三种实现方式中,所述文本框的尺寸信息包括所述文本框的高度和/或宽度。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式和/或第三方面的第三种实现方式,本公开在第三方面的第四种实现方式中,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框,包括:
根据宽度和高度分别对所述文本框进行排序,得到两种排序结果;
根据所述两种排序结果确定所述目标文本框。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式和/或第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,根据所述两种排序结果确定所述目标文本框,包括:
在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框;
在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式和/或第三方面的第五种实现方式,本公开在第三方面的第六种实现方式中,在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框,包括:
如果排名最靠前的所述第一文本框的高度大于或等于多个所述文本框的平均高度,则将最靠前的所述第一文本框确定为候选文本框;
如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度大于或等于多个所述为文本框的平均宽度,则将高度最高的所述第三文本框确定为候选文本框;
如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度小于多个所述为文本框的平均宽度,则将宽度最宽的所述第二文本框确定为候选文本框;
根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式和/或第三方面的第六种实现方式,本公开在第三方面的第七种实现方式中,根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框,包括:
在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框为位于所述待识别图像最上面的所述文本框时,将所述候选文本框确定为所述目标文本框;
在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框不为位于所述待识别图像最上面的所述文本框时,从所述候选文本框以及位于所述候选文本框之上的第四文本框中选择高度最高的所述第四文本框确定为目标文本框;
在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框为位于所述待识别图像最上面的所述文本框时,将宽度最宽的所述第二文本框确定为目标文本框;
在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框不为位于所述待识别图像最上面的所述文本框时,从宽度最宽的所述第二文本框以及位于宽度最宽的所述第二文本框之上的第五文本框中选择高度最高的所述第五文本框确定为目标文本框。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式、第三方面的第六种实现方式和/或第三方面的第七种实现方式,本公开在第三方面的第八种实现方式中,在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框,包括:
如果宽度最宽的所述第二文本框的宽度与高度之比小于或等于第三预设阈值,则将所述宽度最宽的所述第二文本框确定为所述目标文本框;
如果宽度最宽的所述第二文本框的宽度与高度之比大于所述第三预设阈值,且高度最高的所述第三文本框的上边线与所述待识别图像的顶部的距离大于第四预设阈值时,则将宽度最宽的所述第二文本框确定为目标文本框;
如果高度最高的所述第三文本框的上边线与待识别图像的顶部的距离小于或等于所述第四预设阈值时,将高度最高的所述第三文本框确定为目标文本框。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式、第三方面的第六种实现方式、第三方面的第七种实现方式和/或第三方面的第八种实现方式,本公开在第三方面的第九种实现方式中,检测待识别图像中的多个文本框,包括:
采用第一人工智能网络模型检测待识别图像中的多个文本框;其中,所述第一人工智能网络模型经过样本数据的预先训练。结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式、第三方面的第六种实现方式、第三方面的第七种实现方式、第三方面的第八种实现方式和/或第三方面的第九种实现方式,本公开在第三方面的第十种实现方式中,从所述目标文本框中识别出目标对象的标识,包括:
采用第二人工智能网络模型从所述目标文本框中识别出目标对象的标识;其中,所述第二人工智能网络模型经过样本数据的预先训练。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式、第三方面的第六种实现方式、第三方面的第七种实现方式、第三方面的第八种实现方式、第三方面的第九种实现方式和/或第三方面的第十种实现方式,本公开在第三方面的第十一种实现方式中,所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤:
获取背景图像集及文字集;其中,所述背景图像集包括利用不同颜色生成的一个或多个背景图像,和/或从已有图像上截取的一个或多个背景图像;所述文字集包括采用不同颜色和/或不同字体生成的一个或多个文字
根据所述背景图像集和所述文字集生成所述样本数据;其中,所述样本数据包括所述背景图像集中的至少一个背景图像和所述文字集中的至少一个文字。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储标识识别装置所用的计算机指令,其包含用于执行上述第一方面中标识识别方法所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例,在获得待识别图像后,对待识别图像进行文本框检测,并且从检测到的多个文本框中根据文本框的尺寸信息选择最接近目标对象的标识的文本框,并对该文本框进行文字识别,以得到目标对象的标识。通过本公开实施例,可以针对目标对象的待识别图像如实体店铺的店铺图像,从待识别图像中检测出来的多个文本框中选择出最有可能包含目标对象的标识的目标文本框,并进一步识别目标文本框中的文字,能够快速而准确地从待识别图像中自动识别出目标对象的标识如实体店铺名,提高了识别效率,且节省了大量的人力和物力成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的标识识别方法的流程图;
图2示出根据图1所示实施方式的步骤S102的流程图;
图3示出根据图2所示实施方式的步骤S202的流程图;
图4示出根据图3所示实施方式的步骤S301的流程图;
图5示出根据图4所示实施方式的步骤S404的流程图;
图6示出根据图3所示实施方式的步骤S302的流程图;
图7示出了根据本公开一实施例识别餐饮店铺名称的效果示意图;
图8示出根据本公开一实施方式的标识识别装置的结构框图;
图9示出根据图4所示实施方式的确定模块802的结构框图;
图10示出根据图9所示实施方式的第一确定子模块902的结构框图;
图11示出根据图10所示实施方式的第二确定子模块1001的结构框图;
图12示出根据图11所示实施方式的第七确定子模块1104的结构框图;
图13示出根据图10所示实施方式的第三确定子模块1002的结构框图;
图14是适于用来实现根据本公开一实施方式的标识识别方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出根据本公开一实施方式的标识识别方法的流程图。如图1所示,所述标识识别方法包括以下步骤S101-S103:
在步骤S101中,检测待识别图像中的多个文本框;
在步骤S102中,获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;
在步骤S103中,从所述目标文本框中识别出目标对象的标识。
本实施例中,目标对象可以是线上平台中为用户提供服务的***对象,例如商户、产品等。线上平台包括但不限于电子商户平台等。***对象可以是一个商户、一个产品等。待识别图像可以是商户的实体店铺对应的店铺图像、产品实体外包装的图像等。待识别图像上可以包括目标对象的标识,该目标对象的标识可以是文字标识,例如餐饮店的店铺名称、产品名称等等。可以理解的是,待识别图像上除了包括目标对象的标识之外,还可以包括其他文字内容,例如目标对象的详情介绍(如餐饮店地址、电话、产品生产厂家等)等文字内容。
在一些实施例中,可以通过图像分割网络模型检测出文本框位置,例如可以采用深度学习的方法对待识别图像进行图像分割,进而确定文本框的像素点,并通过最小外接矩形的方法得到文本框位置。待识别图像中可能存在多个文本框,且其中之一可以包含目标对象的标识。
在检测出多个文本框后,可以获取所检测到的文本框的尺寸信息,并根据文本框的尺寸信息从多个文本框中选出最有可能包含目标对象的标识的目标文本框,并对目标文本框进行文字识别得到目标对象的标识。目标文本框的尺寸信息包括单不限于文本框的高度和/或宽度。目标文本框可以是该多个文本框中包含目标对象的标识的概率最大的一个文本框。
在实际应用场景中,待识别图像可以是目标对象对应实体的外表图像,通常情况下目标对象对应实体的外表面可能会较为显著的标出目标对象的名称、代号等标识,目标对象的标识可以包括文字、字符、数字等。因此,在目标对象的标识识别过程中,可以从多个文本框中选出最为显著的一个文本框作为目标文本框,即可以通过文本框的显著度选择最显著的文本框作为目标文本框。文本框的显著度可以通过文本框的面积、横向宽度、纵向高度、与待识别图像顶部的距离等中一个或多个特征进行比较来确定。例如,最显著的文本框可以是面积最大、横向宽度最宽、纵向高度最高和/或最靠近待识别图像顶部等的文本框。需要说明的是,在无特殊说明的情况下,本公开实施例中文本框为包括四条边的矩形,其宽度指纵向两边之间的距离,而高度指横向上下两边之间的距离。
在确定了目标文本框之后,可以通过文字识别模型例如神经网络模型等识别目标文本框中的文字内容,并将识别出的文字内容确定为目标对象的标识。
本公开实施例,在获得待识别图像后,对待识别图像进行文本框检测,并且从检测到的多个文本框中根据文本框的尺寸信息选出目标文本框,并对该目标文本框进行文字识别,以得到目标对象的标识。通过本公开实施例,可以从目标对象对应的待识别图像如实体店铺的店铺图像检测出来的多个文本框中选择出最有可能包含目标对象的标识的目标文本框,并进一步识别目标文本框中的文字,能够快速而准确地从待识别图像中识别出目标对象的标识如实体店铺名,提高了识别效率,且节省了大量的人力和物力成本。
在本实施例的一个可选实现方式中,所述步骤S101,即检测待识别图像中的多个文本框的步骤,进一步包括以下步骤:
根据预设优化方式对多个所述文本框进行优化处理。
该可选的实现方式中,由于通过文本框检测模型从待识别图像中检测到的文本框可能会存在错误判定的情况,待识别图像中的一些区域可能会被误分类为文本框;此外,一些横向宽度较大的文本框可能存在着检测不完整的情况。因此,在从待识别图像中检测到文本框之后,可以基于预设优化方式对多个文本框进行优化处理,保留具有完整的文字内容的文本框;例如可以剔除误判的一些文本框,还可以将检测不完整的文本框进行合并等。
在本实施例的一个可选实现方式中,所述方法进一步还包括以下步骤:
根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框;
合并满足第二预设条件的两个相交的所述文本框。
该可选的实现方式中,由于本公开实施例是从待识别图像检测目标对象的标识,且待识别图像是目标对象对应实体的外表图像,而通常情况下,在目标对象对应的实体的外表面上,目标对象的标识可能会被设计的较大和/或较显著,因此可以通过经验和/或统计分析样本数据等方式设置第一预设条件,并根据文本框的尺寸信息过滤不符合第一预设条件的文本框,为进一步识别目标对象的标识打好基础;其中,第一预设条件可以是文本框的面积大小范围、横向宽度范围和/或纵向高度范围等。
此外,如果存在两个文本框相交时,那么第一种情况可能是两个文本框中的文字内容距离较近,第二种情况可能是由于属于一个整体的文字内容被误判为两部分内容。为了避免后一种误判的情况,可以预先通过经验和/或统计分析样本数据等方式设置第二预设条件,并根据第二预设条件区分两个文本框相交属于上述第一种情况还是第二种情况,在两个相交的文本框满足第二预设条件的情况下,可以认为该两个相交的文本框种的文字内容属于一个整体,而被误判为两部分内容,因此可以将两个相交的文本框进行合并;而不满足第二预设条件的情况下,则可以认为两个文本框种的文字内容距离较近,不需要进行合并。第二预设条件可以是两个文本框的相交比例,相交比例可以是两个相交文本框的相交部分与两个相交文本框合并后的合并部分之比,例如,相交部分的面积、横向宽度和/或纵向高度与合并部分的面积、横向宽度和/或纵向高度之比等。
在本实施例的一个可选实现方式中,所述根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框的步骤,进一步包括以下步骤:
过滤面积小于第一预设阈值的所述文本框。
该可选的实现方式中,第一预设阈值可以设置为最小面积,如果文本框的面积小于该最小面积,则可以认为该文本框为误判的文本框或者该文本框中的文字内容为目标对象标识的可能性较小。因此,在检测出的一个或多个文本框的面积小于该第一预设阈值时,将该一个或多个文本框删除,以减小文字识别的复杂度,提高文字识别的效率。
在本实施例的一个可选实现方式中,所述步骤S102,即至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框的步骤,进一步包括以下步骤:
至少根据所述文本框的高度和/或宽度从多个所述文本框中确定所述目标文本框。
该可选的实现方式中,根据经验可知,目标对象对应实体的外表面上标注的标识,通常情况下会比较醒目,例如字体会较其他文字内容大等。因此,本公开实施例至少可以根据文本框的纵向高度和/或横向宽度等方面进行比较后,从多个文本框中确定出目标文本框,进而从中识别出目标对象的标识。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S102,即至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框的步骤,进一步包括以下步骤S201-S202:
在步骤S201中,根据宽度和高度分别对所述文本框进行排序,得到两种排序结果;
在步骤S202中,根据所述两种排序结果确定所述目标文本框。
该可选的实现方式中,对多个文本框通过横向宽度和纵向高度分别进行排序,并根据两种排序结果选出最有可能包含目标对象的标识的目标文本框。例如,可以根据目标对象的类型等选出宽度最宽和/或高度最高的文本框作为目标文本框等。
在本实施例的一个可选实现方式中,如图3所示,所述步骤S202,即根据所述两种排序结果确定所述目标文本框的步骤,进一步包括以下步骤S301-S302:
在步骤S301中,在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框;
在步骤S302中,在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框。
该可选的实现方式中,根据横向宽度和纵向高度排序得到的两种排序结果中,假如存在排名相同的一个或多个第一文本框,则可以从排名最靠前的第一文本框、横向宽度最宽的第二文本框和纵向高度最高的第三文本框中选择最有可能包含目标对象的标识的一个文本框,将其作为目标文本框;这是因为经过大量实验表明,横向宽度排序和纵向高度排序中排名相同且较靠前的文本框、宽度最宽的文本框和高度最高的文本框中包含目标对象的标识的概率较大。例如,检测出了5个文本框,分别用1-5数字来标识;使用宽度排序后得到的排序结果为【1,4,5,3,2】,使用高度排序后得到的排序结果为【2,4,5,3,1】,可见排名相同的文本框为第4、5、3个文本框,而最靠前的为第4个文本框;因此可以从第4个文本框、宽度最宽的文本框和高度最高的文本框中选择其中一个作为目标文本框。
假如两种排序结果中不存在排名相同的第一文本框时,则可以从宽度最宽的第二文本框和高度最高的第三文本框中选择一个作为目标文本框。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S301,即在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框的步骤,进一步包括以下步骤S401-S404:
在步骤S401中,如果排名最靠前的所述第一文本框的高度大于或等于多个所述文本框的平均高度,则将排名最靠前的所述第一文本框确定为候选文本框;
在步骤S402中,如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度大于或等于多个所述为文本框的平均宽度,则将高度最高的所述第三文本框确定为候选文本框;
在步骤S403中,如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度小于多个所述为文本框的平均宽度,则将宽度最宽的所述第二文本框确定为候选文本框;
在步骤S404中,根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框。
该可选的实现方式中,如果两种排序结果中存在排名相同的第一文本框时,优先选择排名最靠前的第一文本框作为候选文本框,但前提是该排名最靠前的第一文本框的高度大于或等于多个文本框的平均高度,如果排名最靠前的第一文本框的高度小于多个文本框的平均高度,则说明该排名最靠前的第一文本框由于高度不够,也即纵向上较为窄小,包含目标对象的标识的可能性低于宽度最宽的第二文本框和高度最高的第三文本框,因此可以从宽度最宽第二文本框和高度最高的第三文本框中选择一个作为候选文本框。此时,可以先确定高度最高的第三文本框的宽度是否大于或等于多个文本框的平均宽度,如果大于则选择高度最高的第三文本框作为候选文本框,否则选择宽度最宽的第二文本框作为候选文本框,这是因为目标对象的标识在待识别图像中的高度较高,因此如果高度较高且宽度不够宽的话,该文本框中的文字内容是目标对象的标识的概率较小,也即高度最高的第三文本框的宽度小于平均宽度的情况下,其中文字内容为目标对象的标识的概率要小于宽度最宽的第二文本框中文字内容为目标对象的标识的概率。
通过上述判断条件确定出候选文本框之后,再根据候选文本框的上边线与待识别图像的顶部的距离确定该候选文本框是否为目标文本框,也即通过判断候选文本框在待识别图像中的位置是靠上还是靠下来确定。在一些实施例中,如果该候选文本框不是目标文本框,则可以重新从其他文本框中选择目标文本框。
在本实施例的一个可选实现方式中,如图5所示,所述步骤S404,即根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框的步骤,进一步包括以下步骤S501-S504:
在步骤S501中,在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框为位于所述待识别图像最上面的所述文本框时,将所述候选文本框确定为所述目标文本框;
在步骤S502中,在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框不为位于所述待识别图像最上面的所述文本框时,从所述候选文本框以及位于所述候选文本框之上的第四文本框中选择高度最高的所述第四文本框确定为目标文本框;
在步骤S503中,在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框为位于所述待识别图像最上面的所述文本框时,将宽度最宽的所述第二文本框确定为目标文本框;
在步骤S504中,在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框不为位于所述待识别图像最上面的所述文本框时,从宽度最宽的所述第二文本框以及位于宽度最宽的所述第二文本框之上的第五文本框中选择高度最高的所述第五文本框确定为目标文本框。
该可选的实现方式中,确定了候选文本框之后,候选文本框在待识别图像中的位置靠上,也即候选文本框的上边线与待识别图像的顶部的距离小于或等于第二预设阈值,且候选文本框之上没有其他文本框的情况下,可以将该候选文本框确定为目标文本框。而候选文本框在待识别图像中的位置虽然靠上,也即候选文本框的上边线与待识别图像的顶部的距离小于或等于第二预设阈值,但是候选文本框之上还有其他文本框的情况下,可以将该候选文本框以及该候选文本框之上的第四文本框按照高度重新排序,并将重新排序后高度最高的第四文本框确定为目标文本框。
如果候选文本框在待识别图像中的位置靠下,也即候选文本框的上边线与待识别图像的顶部的距离大于第二预设阈值,则判断宽度最宽的第二文本框是否为位于待识别图像最上面的文本框,如果是的话则将该宽度最宽的第二文本框确定为目标文本框,如果否的话则从宽度最宽的第二文本框以及该宽度最宽的文本框之上的第五文本框中选择高度最高的作为目标文本框。
在一些实施例中,第二预设阈值可以根据经验或统计分析等方式预先设置,例如第二预设阈值可以设置为小于或等于候选文本框的高度的一半的数值。
在本实施例的一个可选实现方式中,如图6所示,所述步骤S302,即,在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框的步骤,进一步包括以下步骤S601-S603:
在步骤S601中,如果宽度最宽的所述第二文本框的宽度与高度之比小于或等于第三预设阈值,则将所述宽度最宽的所述第二文本框确定为所述目标文本框;
在步骤S602中,如果宽度最宽的所述第二文本框的宽度与高度之比大于所述第三预设阈值,且高度最高的所述第三文本框的上边线与所述待识别图像的顶部的距离大于第四预设阈值时,则将宽度最宽的所述第二文本框确定为目标文本框;
在步骤S603中,如果高度最高的所述第三文本框的上边线与待识别图像的顶部的距离小于或等于所述第四预设阈值时,将高度最高的所述第三文本框确定为目标文本框。
该可选的实现方式中,如果根据高度和宽度排序后得到的两种排序结果中不存在排名相同的第一文本框时,可以从宽度最宽的第二文本框和高度最高的第三文本框中选择一个作为目标文本框;在宽度最宽的第二文本框的宽度与高度之比不太大,也即小于或等于第三预设阈值时,将宽度最宽的第二文本框作为目标文本框。之所以采用宽度最宽的第二文本框的宽度与高度之比筛选目标文本框,是为了避免最宽的第二文本框是一段文字,而非目标对象的标识这一情况。
如果宽度最宽的第二文本框的宽度和高度之比较大,也即大于第三预设阈值时,由于目标对象的标识通常情况下字数不会过多,也即对应的文本框在横向上不会过宽,因此可以认为该宽度最宽的第二文本框包含目标对象的标识的概率不大,此时可以再判断高度最高的第三文本框包括目标对象的标识的概率是否较大,如果高度最高的第三文本框的上边线与待识别图像顶边的距离大于第四预设阈值,也即高度最高的第三文本框在待识别图像中的位置较靠下时,此时可以认为该高度最高的第三文本框包含目标对象的标识的概率比宽度最宽的第二文本框还低,此时还是将宽度最宽的第二文本框作为目标文本框。
而宽度最宽的第二文本框的宽度与高度之比大于第三预设阈值,且高度最高的第三文本框的上边线与待识别图像的顶部的距离小于或等于第四预设阈值,也即高度最高的第三文本框在待识别图像中的位置较靠上时,则可以将高度最高的第三文本框确定为目标文本框。
在一些实施例中,第三预设阈值和第四预设阈值可以根据经验、统计分析等方式预先设置。例如,第三预设阈值可以是一个常数,而第四预设阈值可以设置为小于或等于高度最高的文本框高度的一半的数值。
在本实施例的一个可选实现方式中,所述步骤S101,即检测待识别图像中的多个文本框的步骤,进一步包括以下步骤:
采用第一人工智能网络模型检测待识别图像中的多个文本框;其中,所述第一人工智能网络模型经过样本数据的预先训练。
该可选的实现方式中,可以预先利用样本数据训练好第一人工智能模型,并由第一人工智能模型对待识别图像进行文本框的检测。第一人工智能模型可以采用PixelLink中提出的实例分割方式实现文本检测,其基于DNN进行两种像素预测:文本/非文本预测和link预测;PixelLink提出的文本检测方式为已有技术,在此不再赘述。PixelLink的基础网络可以选择Resnet(Residual Neural Network)网络。
在本实施例的一个可选实现方式中,所述步骤S103,即从所述目标文本框中识别出目标对象的标识的步骤,进一步包括以下步骤:
采用第二人工智能网络模型从所述目标文本框中识别出目标对象的标识;其中,所述第二人工智能网络模型经过样本数据的预先训练。
该可选的实现方式中,在确定了目标文本框之后,可以利用预先训练好的第二人工智能网络模型从目标文本框中识别目标对象的标识。第二人工智能网络模型可以采用CRNN模型,其结合了卷积神经网络模型(CNN)和循环神经网络模型(RNN),识别功能更强。
在本实施例的一个可选实现方式中,所述方法还进一步包括以下步骤:
获取背景图像集及文字集;其中,所述背景图像集包括利用不同颜色生成的一个或多个背景图像,和/或从已有图像上截取的一个或多个背景图像;所述文字集包括采用不同颜色和/或不同字体生成的一个或多个文字;
根据所述背景图像集和所述文字集生成样本数据;其中,所述样本数据包括所述背景图像集中的至少一个背景图像和所述文字集中的至少一个文字。
该可选的实现方式中,为了训练上述第一人工智能模型和/或第二人工智能模型,可以收集大量的样本数据。本实施例中可以人工生成一部分样本数据。人工生成样本数据的过程中,可以选取多种字体和/或多种颜色构成包括多种不同文字的文字集,并构造包括多种不同背景图像的背景图像集,如选取任意的纯色背景和/或任意图像上截取的背景等形成的背景图像。在生成一个样本数据时,从背景图像集中任意选取一副背景图像,并从文字集中选择一个或多个文字将其写在所选背景图像的任意位置,形成一幅图像,该图像的标签可以被标注为该一个或多个文字所在的文本框,该图像及该图像的标签可以作为第一人工智能模型的样本数据;此外,还可以截取该图像上该一个或多个文字所在的文本框,并将该文本框的标签标注为该一个或多个文字,该文本框及该文本框的标签可以作为第二人工智能模型的样本数据;通过这种方式可以生成训练第一人工智能模型和第二人工智能模型的多个样本数据。
当然,另一方面还可以获得真实的样本数据,例如从自然场景获取图像,并对图像进行人工标注得到样本数据。
图7示出了根据本公开一实施例识别餐饮店铺名称的效果示意图。外卖点餐平台中入驻的餐饮店铺数量众多,为了保障用户权益,餐饮店铺要求有正规的实体店面。为了保证入驻的餐饮店铺的合规性,通常要求餐饮店铺上传店面照片,并且店面照片上的店铺名称与所提交的店铺信息一致。在上述信息真实性时,如果采用人工审核的方式,则会耗费大量人力成本。而采用本公开实施例所提出的标识识别方法,则可以由机器自动对店面照片进行处理,识别出店面照片中店铺的名称。如图7所示,通过对该图像进行文本框检测,并且根据尺寸信息对文本框进行过滤后,保留了图像上半部分标识出的两个文本框,再根据文本框的尺寸信息确定出目标文本框为“九园包子”所在的文本框,对该文本框进行文字识别,可以得到该图像对应的店铺名称为“九园包子”。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图8示出根据本公开一实施方式的标识识别装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图8所示,所述标识识别装置包括:
检测模块801,被配置为检测待识别图像中的多个文本框;
确定模块802,被配置为获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;
识别模块803,被配置为从所述目标文本框中识别出目标对象的标识。
本实施例中,目标对象可以是线上平台中为用户提供服务的***对象,例如商户、产品等。线上平台包括但不限于电子商户平台等。***对象可以是一个商户、一个产品等。待识别图像可以是商户的实体店铺对应的店铺图像、产品实体外包装的图像等。待识别图像上可以包括目标对象的标识,该目标对象的标识可以是文字标识,例如餐饮店的店铺名称、产品名称等等。可以理解的是,待识别图像上除了包括目标对象的标识之外,还可以包括其他文字内容,例如目标对象的详情介绍(如餐饮店地址、电话、产品生产厂家等)等文字内容。
在一些实施例中,可以通过图像分割网络模型检测出文本框位置,例如可以采用深度学习的方法对待识别图像进行图像分割,进而确定文本框的像素点,并通过最小外接矩形的方法得到文本框位置。待识别图像中可能存在多个文本框,且其中之一可以包含目标对象的标识。
在检测出多个文本框后,可以获取所检测到的文本框的尺寸信息,并根据文本框的尺寸信息从多个文本框中选出最有可能包含目标对象的标识的目标文本框,并对目标文本框进行文字识别得到目标对象的标识。目标文本框的尺寸信息包括单不限于文本框的高度和/或宽度。目标文本框可以是该多个文本框中包含目标对象的标识的概率最大的一个文本框。
在实际应用场景中,待识别图像可以是目标对象对应实体的外表图像,通常情况下目标对象对应实体的外表面可能会较为显著的标出目标对象的名称、代号等标识,目标对象的标识可以包括文字、字符、数字等。因此,在目标对象的标识识别过程中,可以从多个文本框中选出最为显著的一个文本框作为目标文本框,即可以通过文本框的显著度选择最显著的文本框作为目标文本框。文本框的显著度可以通过文本框的面积、横向宽度、纵向高度、与待识别图像顶部的距离等中一个或多个特征进行比较来确定。例如,最显著的文本框可以是面积最大、横向宽度最宽、纵向高度最高和/或最靠近待识别图像顶部等的文本框。需要说明的是,在无特殊说明的情况下,本公开实施例中文本框为包括四条边的矩形,其宽度指纵向两边之间的距离,而高度指横向上下两边之间的距离。
在确定了目标文本框之后,可以通过文字识别模型例如神经网络模型等识别目标文本框中的文字内容,并将识别出的文字内容确定为目标对象的标识。
本公开实施例,在获得待识别图像后,对待识别图像进行文本框检测,并且从检测到的多个文本框中根据文本框的尺寸信息选出目标文本框,并对该目标文本框进行文字识别,以得到目标对象的标识。通过本公开实施例,可以从目标对象对应的待识别图像如实体店铺的店铺图像检测出来的多个文本框中选择出最有可能包含目标对象的标识的目标文本框,并进一步识别目标文本框中的文字,能够快速而准确地从待识别图像中识别出目标对象的标识如实体店铺名,提高了识别效率,且节省了大量的人力和物力成本。
在本实施例的一个可选实现方式中,所述装置还包括:
优化模块,被配置为根据预设优化方式对多个所述文本框进行优化处理。
该可选的实现方式中,由于通过文本框检测模型从待识别图像中检测到的文本框可能会存在错误判定的情况,待识别图像中的一些区域可能会被误分类为文本框;此外,一些横向宽度较大的文本框可能存在着检测不完整的情况。因此,在从待识别图像中检测到文本框之后,可以基于预设优化方式对多个文本框进行优化处理,保留具有完整的文字内容的文本框;例如可以剔除误判的一些文本框,还可以将检测不完整的文本框进行合并等。
在本实施例的一个可选实现方式中,所述装置还包括:
过滤模块,被配置为根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框;
合并模块,被配置为合并满足第二预设条件的两个相交的所述文本框。
该可选的实现方式中,由于本公开实施例是从待识别图像检测目标对象的标识,且待识别图像是目标对象对应实体的外表图像,而通常情况下,在目标对象对应的实体的外表面上,目标对象的标识可能会被设计的较大和/或较显著,因此可以通过经验和/或统计分析样本数据等方式设置第一预设条件,并根据文本框的尺寸信息过滤不符合第一预设条件的文本框,为进一步识别目标对象的标识打好基础;其中,第一预设条件可以是文本框的面积大小范围、横向宽度范围和/或纵向高度范围等。
此外,如果存在两个文本框相交时,那么第一种情况可能是两个文本框中的文字内容距离较近,第二种情况可能是由于属于一个整体的文字内容被误判为两部分内容。为了避免后一种误判的情况,可以预先通过经验和/或统计分析样本数据等方式设置第二预设条件,并根据第二预设条件区分两个文本框相交属于上述第一种情况还是第二种情况,在两个相交的文本框满足第二预设条件的情况下,可以认为该两个相交的文本框种的文字内容属于一个整体,而被误判为两部分内容,因此可以将两个相交的文本框进行合并;而不满足第二预设条件的情况下,则可以认为两个文本框种的文字内容距离较近,不需要进行合并。第二预设条件可以是两个文本框的相交比例,相交比例可以是两个相交文本框的相交部分与两个相交文本框合并后的合并部分之比,例如,相交部分的面积、横向宽度和/或纵向高度与合并部分的面积、横向宽度和/或纵向高度之比等。
在本实施例的一个可选实现方式中,所述过滤模块,包括:
过滤子模块,被配置为过滤面积小于第一预设阈值的所述文本框。
该可选的实现方式中,第一预设阈值可以设置为最小面积,如果文本框的面积小于该最小面积,则可以认为该文本框为误判的文本框或者该文本框中的文字内容为目标对象标识的可能性较小。因此,在检测出的一个或多个文本框的面积小于该第一预设阈值时,将该一个或多个文本框删除,以减小文字识别的复杂度,提高文字识别的效率。
在本实施例的一个可选实现方式中,所述确定模块802,包括:
排序子模块,被配置为根据宽度和高度分别对所述文本框进行排序,得到两种排序结果;
第一确定子模块,被配置为根据所述两种排序结果确定所述目标文本框。
该可选的实现方式中,根据经验可知,目标对象对应实体的外表面上标注的标识,通常情况下会比较醒目,例如字体会较其他文字内容大等。因此,本公开实施例至少可以根据文本框的纵向高度和/或横向宽度等方面进行比较后,从多个文本框中确定出目标文本框,进而从中识别出目标对象的标识。
在本实施例的一个可选实现方式中,如图9所示,所述确定模块802,包括:
排序子模块901,被配置为根据宽度和高度分别对所述文本框进行排序,得到两种排序结果;
第一确定子模块902,被配置为根据所述两种排序结果确定所述目标文本框。
该可选的实现方式中,对多个文本框通过横向宽度和纵向高度分别进行排序,并根据两种排序结果选出最有可能包含目标对象的标识的目标文本框。例如,可以根据目标对象的类型等选出宽度最宽和/或高度最高的文本框作为目标文本框等。
在本实施例的一个可选实现方式中,如图10所示,所述第一确定子模块902,包括:
第二确定子模块1001,被配置为在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框;
第三确定子模块1002,被配置为在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框。
该可选的实现方式中,根据横向宽度和纵向高度排序得到的两种排序结果中,假如存在排名相同的一个或多个第一文本框,则可以从排名最靠前的第一文本框、横向宽度最宽的第二文本框和纵向高度最高的第三文本框中选择最有可能包含目标对象的标识的一个文本框,将其作为目标文本框;这是因为经过大量实验表明,横向宽度排序和纵向高度排序中排名相同且较靠前的文本框、宽度最宽的文本框和高度最高的文本框中包含目标对象的标识的概率较大。例如,检测出了5个文本框,分别用1-5数字来标识;使用宽度排序后得到的排序结果为【1,4,5,3,2】,使用高度排序后得到的排序结果为【2,4,5,3,1】,可见排名相同的文本框为第4、5、3个文本框,而最靠前的为第4个文本框;因此可以从第4个文本框、宽度最宽的文本框和高度最高的文本框中选择其中一个作为目标文本框。
假如两种排序结果中不存在排名相同的第一文本框时,则可以从宽度最宽的第二文本框和高度最高的第三文本框中选择一个作为目标文本框。
在本实施例的一个可选实现方式中,如图11所示,所述第二确定子模块1001,包括:
第四确定子模块1101,被配置为如果排名最靠前的所述第一文本框的高度大于或等于多个所述文本框的平均高度,则将最靠前的所述第一文本框确定为候选文本框;
第五确定子模块1102,被配置为如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度大于或等于多个所述为文本框的平均宽度,则将高度最高的所述第三文本框确定为候选文本框;
第六确定子模块1103,被配置为如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度小于多个所述为文本框的平均宽度,则将宽度最宽的所述第二文本框确定为候选文本框;
第七确定子模块1104,被配置为根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框。
该可选的实现方式中,如果两种排序结果中存在排名相同的第一文本框时,优先选择排名最靠前的第一文本框作为候选文本框,但前提是该排名最靠前的第一文本框的高度大于或等于多个文本框的平均高度,如果排名最靠前的第一文本框的高度小于多个文本框的平均高度,则说明该排名最靠前的第一文本框由于高度不够,也即纵向上较为窄小,包含目标对象的标识的可能性低于宽度最宽的第二文本框和高度最高的第三文本框,因此可以从宽度最宽第二文本框和高度最高的第三文本框中选择一个作为候选文本框。此时,可以先确定高度最高的第三文本框的宽度是否大于或等于多个文本框的平均宽度,如果大于则选择高度最高的第三文本框作为候选文本框,否则选择宽度最宽的第二文本框作为候选文本框,这是因为目标对象的标识在待识别图像中的高度较高,因此如果高度较高且宽度不够宽的话,该文本框中的文字内容是目标对象的标识的概率较小,也即高度最高的第三文本框的宽度小于平均宽度的情况下,其中文字内容为目标对象的标识的概率要小于宽度最宽的第二文本框中文字内容为目标对象的标识的概率。
通过上述判断条件确定出候选文本框之后,再根据候选文本框的上边线与待识别图像的顶部的距离确定该候选文本框是否为目标文本框,也即通过判断候选文本框在待识别图像中的位置是靠上还是靠下来确定。在一些实施例中,如果该候选文本框不是目标文本框,则可以重新从其他文本框中选择目标文本框。
在本实施例的一个可选实现方式中,如图12所示,所述第七确定子模块1104,包括:
第八确定子模块1201,被配置为在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框为位于所述待识别图像最上面的所述文本框时,将所述候选文本框确定为所述目标文本框;
第九确定子模块1202,被配置为在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框不为位于所述待识别图像最上面的所述文本框时,从所述候选文本框以及位于所述候选文本框之上的第四文本框中选择高度最高的所述第四文本框确定为目标文本框;
第十确定子模块1203,被配置为在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框为位于所述待识别图像最上面的所述文本框时,将宽度最宽的所述第二文本框确定为目标文本框;
第十一确定子模块1204,被配置为在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框不为位于所述待识别图像最上面的所述文本框时,从宽度最宽的所述第二文本框以及位于宽度最宽的所述第二文本框之上的第五文本框中选择高度最高的所述第五文本框确定为目标文本框。
该可选的实现方式中,确定了候选文本框之后,候选文本框在待识别图像中的位置靠上,也即候选文本框的上边线与待识别图像的顶部的距离小于或等于第二预设阈值,且候选文本框之上没有其他文本框的情况下,可以将该候选文本框确定为目标文本框。而候选文本框在待识别图像中的位置虽然靠上,也即候选文本框的上边线与待识别图像的顶部的距离小于或等于第二预设阈值,但是候选文本框之上还有其他文本框的情况下,可以将该候选文本框以及该候选文本框之上的第四文本框按照高度重新排序,并将重新排序后高度最高的第四文本框确定为目标文本框。
如果候选文本框在待识别图像中的位置靠下,也即候选文本框的上边线与待识别图像的顶部的距离大于第二预设阈值,则判断宽度最宽的第二文本框是否为位于待识别图像最上面的文本框,如果是的话则将该宽度最宽的第二文本框确定为目标文本框,如果否的话则从宽度最宽的第二文本框以及该宽度最宽的文本框之上的第五文本框中选择高度最高的作为目标文本框。
在一些实施例中,第二预设阈值可以根据经验或统计分析等方式预先设置,例如第二预设阈值可以设置为小于或等于候选文本框的高度的一半的数值。
在本实施例的一个可选实现方式中,如图13所示,所述第三确定子模块1002,包括:
第十二确定子模块1301,被配置为如果宽度最宽的所述第二文本框的宽度与高度之比小于或等于第三预设阈值,则将所述宽度最宽的所述第二文本框确定为所述目标文本框;
第十三确定子模块1302,被配置为如果宽度最宽的所述第二文本框的宽度与高度之比大于所述第三预设阈值,且高度最高的所述第三文本框的上边线与所述待识别图像的顶部的距离大于第四预设阈值时,则将宽度最宽的所述第二文本框确定为目标文本框;
第十四确定子模块1303,被配置为如果高度最高的所述第三文本框的上边线与待识别图像的顶部的距离小于或等于所述第四预设阈值时,将高度最高的所述第三文本框确定为目标文本框。
该可选的实现方式中,如果根据高度和宽度排序后得到的两种排序结果中不存在排名相同的第一文本框时,可以从宽度最宽的第二文本框和高度最高的第三文本框中选择一个作为目标文本框;在宽度最宽的第二文本框的宽度与高度之比不太大,也即小于或等于第三预设阈值时,将宽度最宽的第二文本框作为目标文本框。之所以采用宽度最宽的第二文本框的宽度与高度之比筛选目标文本框,是为了避免最宽的第二文本框是一段文字,而非目标对象的标识这一情况。
如果宽度最宽的第二文本框的宽度和高度之比较大,也即大于第三预设阈值时,由于目标对象的标识通常情况下字数不会过多,也即对应的文本框在横向上不会过宽,因此可以认为该宽度最宽的第二文本框包含目标对象的标识的概率不大,此时可以再判断高度最高的第三文本框包括目标对象的标识的概率是否较大,如果高度最高的第三文本框的上边线与待识别图像顶边的距离大于第四预设阈值,也即高度最高的第三文本框在待识别图像中的位置较靠下时,此时可以认为该高度最高的第三文本框包含目标对象的标识的概率比宽度最宽的第二文本框还低,此时还是将宽度最宽的第二文本框作为目标文本框。
而宽度最宽的第二文本框的宽度与高度之比大于第三预设阈值,且高度最高的第三文本框的上边线与待识别图像的顶部的距离小于或等于第四预设阈值,也即高度最高的第三文本框在待识别图像中的位置较靠上时,则可以将高度最高的第三文本框确定为目标文本框。
在一些实施例中,第三预设阈值和第四预设阈值可以根据经验、统计分析等方式预先设置。例如,第三预设阈值可以是一个常数,而第四预设阈值可以设置为小于或等于高度最高的文本框高度的一半的数值。
在本实施例的一个可选实现方式中,所述检测模块801,包括:
检测子模块,被配置为采用第一人工智能网络模型检测待识别图像中的多个文本框;其中,所述第一人工智能网络模型经过样本数据的预先训练。
该可选的实现方式中,可以预先利用样本数据训练好第一人工智能模型,并由第一人工智能模型对待识别图像进行文本框的检测。第一人工智能模型可以采用PixelLink中提出的实例分割方式实现文本检测,其基于DNN进行两种像素预测:文本/非文本预测和link预测;PixelLink提出的文本检测方式为已有技术,在此不再赘述。PixelLink的基础网络可以选择Resnet(Residual Neural Network)网络。
在本实施例的一个可选实现方式中,所述识别模块803,包括:
识别子模块,被配置为采用第二人工智能网络模型从所述目标文本框中识别出目标对象的标识;其中,所述第二人工智能网络模型经过样本数据的预先训练。
该可选的实现方式中,在确定了目标文本框之后,可以利用预先训练好的第二人工智能网络模型从目标文本框中识别目标对象的标识。第二人工智能网络模型可以采用CRNN模型,其结合了卷积神经网络模型(CNN)和循环神经网络模型(RNN),识别功能更强。
在本实施例的一个可选实现方式中,所述装置还包括:
获取模块,被配置为获取背景图像集及文字集;其中,所述背景图像集包括利用不同颜色生成的一个或多个背景图像,和/或从已有图像上截取的一个或多个背景图像;所述文字集包括采用不同颜色和/或不同字体生成的一个或多个文字
生成模块,被配置为根据所述背景图像集和所述文字集生成所述样本数据;其中,所述样本数据包括所述背景图像集中的至少一个背景图像和所述文字集中的至少一个文字。
该可选的实现方式中,为了训练上述第一人工智能模型和/或第二人工智能模型,可以收集大量的样本数据。本实施例中可以人工生成一部分样本数据。人工生成样本数据的过程中,可以选取多种字体和/或多种颜色构成包括多种不同文字的文字集,并构造包括多种不同背景图像的背景图像集,如选取任意的纯色背景和/或任意图像上截取的背景等形成的背景图像。在生成一个样本数据时,从背景图像集中任意选取一副背景图像,并从文字集中选择一个或多个文字将其写在所选背景图像的任意位置,形成一幅图像,该图像的标签可以被标注为该一个或多个文字所在的文本框,该图像及该图像的标签可以作为第一人工智能模型的样本数据;此外,还可以截取该图像上该一个或多个文字所在的文本框,并将该文本框的标签标注为该一个或多个文字,该文本框及该文本框的标签可以作为第二人工智能模型的样本数据;通过这种方式可以生成训练第一人工智能模型和第二人工智能模型的多个样本数据。
当然,另一方面还可以获得真实的样本数据,例如从自然场景获取图像,并对图像进行人工标注得到样本数据。
本公开实施方式还提供了一种电子设备,如图14所示,包括至少一个处理器1401;以及与至少一个处理器1401通信连接的存储器1402;其中,存储器1402存储有可被至少一个处理器1401执行的指令,指令被至少一个处理器1401执行以实现:
检测待识别图像中的多个文本框;
获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;
从所述目标文本框中识别出目标对象的标识。
其中,所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤:
根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框;
合并满足第二预设条件的两个相交的所述文本框。
其中,根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框,包括:
过滤面积小于第一预设阈值的所述文本框。
其中,所述文本框的尺寸信息包括所述文本框的高度和/或宽度
其中,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框,包括:
根据宽度和高度分别对所述文本框进行排序,得到两种排序结果;
根据所述两种排序结果确定所述目标文本框。
其中,根据所述两种排序结果确定所述目标文本框,包括:
在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框;
在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框。
其中,在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框,包括:
如果排名最靠前的所述第一文本框的高度大于或等于多个所述文本框的平均高度,则将最靠前的所述第一文本框确定为候选文本框;
如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度大于或等于多个所述为文本框的平均宽度,则将高度最高的所述第三文本框确定为候选文本框;
如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度小于多个所述为文本框的平均宽度,则将宽度最宽的所述第二文本框确定为候选文本框;
根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框。
其中,根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框,包括:
在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框为位于所述待识别图像最上面的所述文本框时,将所述候选文本框确定为所述目标文本框;
在所述候选文本框的上边线与所述待识别图像的顶部的距离小于或等于第二预设阈值,且所述候选文本框不为位于所述待识别图像最上面的所述文本框时,从所述候选文本框以及位于所述候选文本框之上的第四文本框中选择高度最高的所述第四文本框确定为目标文本框;
在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框为位于所述待识别图像最上面的所述文本框时,将宽度最宽的所述第二文本框确定为目标文本框;
在所述候选文本框的上边线与所述待识别图像的顶部的距离大于第二预设阈值,且宽度最宽的所述第二文本框不为位于所述待识别图像最上面的所述文本框时,从宽度最宽的所述第二文本框以及位于宽度最宽的所述第二文本框之上的第五文本框中选择高度最高的所述第五文本框确定为目标文本框。
其中,在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框,包括:
如果宽度最宽的所述第二文本框的宽度与高度之比小于或等于第三预设阈值,则将所述宽度最宽的所述第二文本框确定为所述目标文本框;
如果宽度最宽的所述第二文本框的宽度与高度之比大于所述第三预设阈值,且高度最高的所述第三文本框的上边线与所述待识别图像的顶部的距离大于第四预设阈值时,则将宽度最宽的所述第二文本框确定为目标文本框;
如果高度最高的所述第三文本框的上边线与待识别图像的顶部的距离小于或等于所述第四预设阈值时,将高度最高的所述第三文本框确定为目标文本框。
其中,检测待识别图像中的多个文本框,包括:
采用第一人工智能网络模型检测待识别图像中的多个文本框;其中,所述第一人工智能网络模型经过样本数据的预先训练。
其中,从所述目标文本框中识别出目标对象的标识,包括:
采用第二人工智能网络模型从所述目标文本框中识别出目标对象的标识;其中,所述第二人工智能网络模型经过样本数据的预先训练。
其中,所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤:
获取背景图像集及文字集;其中,所述背景图像集包括利用不同颜色生成的一个或多个背景图像,和/或从已有图像上截取的一个或多个背景图像;所述文字集包括采用不同颜色和/或不同字体生成的一个或多个文字
根据所述背景图像集和所述文字集生成所述样本数据;其中,所述样本数据包括所述背景图像集中的至少一个背景图像和所述文字集中的至少一个文字。
具体地,处理器1401、存储器1402可以通过总线或者其他方式连接,图14中以通过总线连接为例。存储器1402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器1401通过运行存储在存储器1402中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现本公开实施例中的上述方法。
存储器1402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储航运网络运输的历史数据等。此外,存储器1402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,电子设备可选地包括通信组件1403,存储器1402可选地包括相对于处理器1401远程设置的存储器,这些远程存储器可以通过通信组件1403连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器1402中,当被一个或者多个处理器1401执行时,执行本公开实施例中的上述方法。
上述产品可执行本公开实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本公开实施方式所提供的方法。
附图中的流程图和框图,图示了按照本公开各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种标识识别方法,其特征在于,包括:
检测待识别图像中的多个文本框;
获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;
从所述目标文本框中识别出目标对象的标识。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框;
合并满足第二预设条件的两个相交的所述文本框。
3.根据权利要求2所述的方法,其特征在于,根据所述文本框的尺寸信息过滤不符合第一预设条件的所述文本框,包括:
过滤面积小于第一预设阈值的所述文本框。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述文本框的尺寸信息包括所述文本框的高度和/或宽度。
5.根据权利要求1-3任一项所述的方法,其特征在于,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框,包括:
根据宽度和高度分别对所述文本框进行排序,得到两种排序结果;
根据所述两种排序结果确定所述目标文本框。
6.根据权利要求5所述的方法,其特征在于,根据所述两种排序结果确定所述目标文本框,包括:
在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框;
在所述两种排序结果中不存在排名相同的所述第一文本框时,将宽度最宽的第二文本框和高度最高的第三文本框之一确定为所述目标文本框。
7.根据权利要求6所述的方法,其特征在于,在所述两种排序结果中存在排名相同的第一文本框时,在所述第一文本框中,将排名最靠前的所述第一文本框、宽度最宽的所述第一文本框和高度最高的所述第一文本框之一确定为所述目标文本框,包括:
如果排名最靠前的所述第一文本框的高度大于或等于多个所述文本框的平均高度,则将最靠前的所述第一文本框确定为候选文本框;
如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度大于或等于多个所述为文本框的平均宽度,则将高度最高的所述第三文本框确定为候选文本框;
如果排名最靠前的所述第一文本框的高度小于多个所述为文本框的平均高度,且高度最高的所述第三文本框的宽度小于多个所述为文本框的平均宽度,则将宽度最宽的所述第二文本框确定为候选文本框;
根据所述候选文本框的上边线与所述待识别图像的顶部的距离确定所述目标文本框。
8.一种标识识别装置,其特征在于,包括:
检测模块,被配置为检测待识别图像中的多个文本框;
确定模块,被配置为获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;
识别模块,被配置为从所述目标文本框中识别出目标对象的标识。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
检测待识别图像中的多个文本框;
获取所述文本框的尺寸信息,至少根据所述文本框的尺寸信息从多个所述文本框中确定所述目标文本框;
从所述目标文本框中识别出目标对象的标识。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910578100.5A CN110276352A (zh) | 2019-06-28 | 2019-06-28 | 标识识别方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910578100.5A CN110276352A (zh) | 2019-06-28 | 2019-06-28 | 标识识别方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110276352A true CN110276352A (zh) | 2019-09-24 |
Family
ID=67963781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910578100.5A Pending CN110276352A (zh) | 2019-06-28 | 2019-06-28 | 标识识别方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276352A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209865A (zh) * | 2020-01-06 | 2020-05-29 | 中科鼎富(北京)科技发展有限公司 | 文件内容提取方法、装置、电子设备及存储介质 |
CN111652176A (zh) * | 2020-06-11 | 2020-09-11 | 商汤国际私人有限公司 | 信息提取方法、装置、设备及存储介质 |
CN112861503A (zh) * | 2020-12-30 | 2021-05-28 | 南京智闪萤科技有限公司 | 产生电子合同的方法、计算设备和计算机存储介质 |
CN113781552A (zh) * | 2021-09-06 | 2021-12-10 | 天津爱旭太阳能科技有限公司 | 一种se激光工艺中偏移机台的查找方法和查找*** |
CN114511741A (zh) * | 2022-01-28 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 图像的识别方法、装置、设备、存储介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537099A (zh) * | 2017-05-26 | 2018-09-14 | 华南理工大学 | 一种复杂背景的车牌识别方法 |
CN108564084A (zh) * | 2018-05-08 | 2018-09-21 | 北京市商汤科技开发有限公司 | 文字检测方法、装置、终端及存储介质 |
CN108921782A (zh) * | 2018-05-17 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及存储介质 |
CN109002768A (zh) * | 2018-06-22 | 2018-12-14 | 深源恒际科技有限公司 | 基于神经网络文本检测识别的医疗票据类文字提取方法 |
CN109190623A (zh) * | 2018-09-15 | 2019-01-11 | 闽江学院 | 一种识别投影仪品牌和型号的方法 |
CN109685066A (zh) * | 2018-12-24 | 2019-04-26 | 中国矿业大学(北京) | 一种基于深度卷积神经网络的矿井目标检测与识别方法 |
CN109766879A (zh) * | 2019-01-11 | 2019-05-17 | 北京字节跳动网络技术有限公司 | 字符检测模型的生成、字符检测方法、装置、设备及介质 |
-
2019
- 2019-06-28 CN CN201910578100.5A patent/CN110276352A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537099A (zh) * | 2017-05-26 | 2018-09-14 | 华南理工大学 | 一种复杂背景的车牌识别方法 |
CN108564084A (zh) * | 2018-05-08 | 2018-09-21 | 北京市商汤科技开发有限公司 | 文字检测方法、装置、终端及存储介质 |
CN108921782A (zh) * | 2018-05-17 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及存储介质 |
CN109002768A (zh) * | 2018-06-22 | 2018-12-14 | 深源恒际科技有限公司 | 基于神经网络文本检测识别的医疗票据类文字提取方法 |
CN109190623A (zh) * | 2018-09-15 | 2019-01-11 | 闽江学院 | 一种识别投影仪品牌和型号的方法 |
CN109685066A (zh) * | 2018-12-24 | 2019-04-26 | 中国矿业大学(北京) | 一种基于深度卷积神经网络的矿井目标检测与识别方法 |
CN109766879A (zh) * | 2019-01-11 | 2019-05-17 | 北京字节跳动网络技术有限公司 | 字符检测模型的生成、字符检测方法、装置、设备及介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209865A (zh) * | 2020-01-06 | 2020-05-29 | 中科鼎富(北京)科技发展有限公司 | 文件内容提取方法、装置、电子设备及存储介质 |
CN111652176A (zh) * | 2020-06-11 | 2020-09-11 | 商汤国际私人有限公司 | 信息提取方法、装置、设备及存储介质 |
CN111652176B (zh) * | 2020-06-11 | 2024-05-21 | 商汤国际私人有限公司 | 信息提取方法、装置、设备及存储介质 |
CN112861503A (zh) * | 2020-12-30 | 2021-05-28 | 南京智闪萤科技有限公司 | 产生电子合同的方法、计算设备和计算机存储介质 |
CN113781552A (zh) * | 2021-09-06 | 2021-12-10 | 天津爱旭太阳能科技有限公司 | 一种se激光工艺中偏移机台的查找方法和查找*** |
CN114511741A (zh) * | 2022-01-28 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 图像的识别方法、装置、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276352A (zh) | 标识识别方法、装置、电子设备及计算机可读存储介质 | |
Sousa et al. | Automation of waste sorting with deep learning | |
CN111753767B (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
CN108416384B (zh) | 一种图像标签标注方法、***、设备及可读存储介质 | |
CN106688011B (zh) | 用于多类别物体检测的方法和*** | |
CN107067025B (zh) | 一种基于主动学习的文本数据自动标注方法 | |
CN104809481B (zh) | 一种基于自适应色彩聚类的自然场景文本检测方法 | |
CN101556606B (zh) | 一种基于Web数值表格抽取的数据挖掘方法 | |
CN111046784A (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
CN103577475B (zh) | 一种图片自动化分类方法、图片处理方法及其装置 | |
CN109165645A (zh) | 一种图像处理方法、装置以及相关设备 | |
CN105894359A (zh) | 订单推送方法、装置及*** | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN107093172A (zh) | 文字检测方法及*** | |
CN107506793A (zh) | 基于弱标注图像的服装识别方法及*** | |
CN109190630A (zh) | 字符识别方法 | |
CN107203775A (zh) | 一种图像分类的方法、装置和设备 | |
CN112949476B (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN106845513A (zh) | 基于条件随机森林的人手检测器及方法 | |
CN107967480A (zh) | 一种基于标签语义的显著对象提取方法 | |
CN108734159A (zh) | 一种图像中敏感信息的检测方法及*** | |
CN111652141B (zh) | 基于题号和文本行的题目分割方法、装置、设备和介质 | |
CN110490237A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN106326451A (zh) | 一种基于视觉特征提取的网页传感信息块判决方法 | |
CN113762257B (zh) | 一种美妆品牌图像中标志的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190924 |