CN109117845A - 一种图像中的对象识别方法及装置 - Google Patents

一种图像中的对象识别方法及装置 Download PDF

Info

Publication number
CN109117845A
CN109117845A CN201810929671.4A CN201810929671A CN109117845A CN 109117845 A CN109117845 A CN 109117845A CN 201810929671 A CN201810929671 A CN 201810929671A CN 109117845 A CN109117845 A CN 109117845A
Authority
CN
China
Prior art keywords
subregion
images
recognized
image
subregions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810929671.4A
Other languages
English (en)
Inventor
戴亦斌
陈雪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Cloud Information Technology Co Ltd
Original Assignee
Guangzhou Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Cloud Information Technology Co Ltd filed Critical Guangzhou Cloud Information Technology Co Ltd
Priority to CN201810929671.4A priority Critical patent/CN109117845A/zh
Publication of CN109117845A publication Critical patent/CN109117845A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种图像中的对象识别方法及装置,所述方法包括:对待识别图像进行预处理,获得所述待识别图像的二值图像;将所述二值图像切割成多个子区域,并从所述多个子区域中选出第一子区域,所述第一子区域为包含有预设像素点的子区域;基于不同第一子区域在所述二值图像中的距离,对所述第一子区域进行合并得到至少一个第二子区域;识别所述第二子区域中的目标对象。本申请提供的技术方案,可以改善背景相对复杂、文字不连贯等图像中的对象识别效果。

Description

一种图像中的对象识别方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像中的对象识别方法及装置。
背景技术
在现实生活和工作中,人们常常需要识别图像中的文字、图形等对象,例如,采用各类图像中的对象识别软件识别票据、书籍等纸质文档的扫描图像中的文字,或者识别照片或视频中的人脸或动物等图形对象。
目前,这些图像中的对象识别软件在识别文字时,采用的是光学字符识别(Optical Character Recognition,OCR)技术,在识别人脸等图形象时,通过定位人的脸部特征进行识别。
但是,现有的图像中的对象识别软件,仅对背景简单干净、文字排布整齐的高质量图像中的文字具有较好的识别效果,且仅可以识别类似文字、人脸这样具有明显的特征的对象,而对背景相对复杂、文字不连贯的文字对象,以及其他对象的识别效果不理想,亟待改进。
发明内容
本申请实施例提供一种图像中的对象识别方法及装置,以解决现有的图像中的对象识别方案识别效果不理想的问题。
第一方面,本申请实施例提供一种图像中的对象识别方法,所述方法包括:
对待识别图像进行预处理,获得所述待识别图像的二值图像;
将所述二值图像切割成多个子区域,并从所述多个子区域中选出第一子区域,所述第一子区域为包含有预设像素点的子区域;
基于不同所述第一子区域在所述二值图像中的距离,对所述第一子区域进行合并,得到至少一个第二子区域;
识别所述第二子区域中的目标对象。
第二方面,本申请实施例还提供一种图像中的对象识别装置,所述装置包括:
预处理模块,用于对待识别图像进行预处理,获得所述待识别图像的二值图像;
切割模块,用于将所述二值图像切割成多个子区域,并从所述多个子区域中选出第一子区域,所述第一子区域为包含有预设像素点的子区域;
合并模块,用于基于不同所述第一子区域在所述二值图像中的距离,对所述第一子区域进行合并得到至少一个第二子区域;
识别模块,用于识别所述第二子区域中的目标对象。
第三方面,本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。
本申请实施例采用的上述至少一个技术方案,由于是先通过图像切割,从待识别图像中选出包含预设像素点的多个第一子区域,并对这多个第一子区域进行合并得到至少一个第二子区域,然后从相对简单的这至少一个第二子区域中识别目标对象,而不是直接从复杂的待识别图像中识别目标对象,因此,可以改善背景相对复杂、文字不连贯等图像中的对象识别效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例提供的图像中的对象识别方法的一种流程示意图。
图2A是本申请实施例提供的图像切割原理示意图。
图2B是本申请实施例提供的子区域合并原理示意图。
图3是本申请实施例提供的指定步骤的详细流程示意图。
图4是本申请实施例提供的图像中的对象识别方法的另一种流程示意图。
图5是本申请实施例提供的一张待识别图像。
图6是应用本申请实施例提供的图像中的对象识别方法对图5所示的待识别图像进行处理得到的效果示意图。
图7是本申请实施例提供的图像中的对象识别装置700的一种结构示意图。
图8是本申请实施例提供的指定模块800的一种结构示意图。
图9是本申请实施例提供的图像中的对象识别装置700的另一种结构示意图。
图10为本申请实施例提供的一种电子设备1000的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决现有的图像中的对象识别方案识别效果不理想的问题,本申请实施例提供了一种图像中的对象识别方法和装置,该方法的执行主体,可以包括但不限于个人电脑(Personal Computer,PC)、手机、IPAD、平板电脑、可穿戴设备等能够被配置为执行本申请实施例提供的方法的终端的至少一种,或者,该方法的执行主体,还可以是能够执行该方法的客户端本身。
下面先对本申请实施例提供的一种图像中的对象识别方法进行说明。
如图1所示,本申请实施例提供的一种图像中的对象识别方法,该方法可以包括如下步骤:
步骤101、对待识别图像进行预处理,获得所述待识别图像的二值图像。
待识别图像可以是需要识别其中的目标对象的任何图像。例如,待识别图像可以是对纸质的文档进行扫描得到的图像。再如,待识别图像可以是应用程序(Application,APP)操作界面的截图。其中,目标对象,可以包括出现在待识别图像中的文字、图片、图形等等。
需要说明的是,当待识别图像是APP操作界面的截图时,本申请实施例提供的图像中的对象识别方法可以应用于APP的自动化测试当中,具体的应用过程大致为:首先对APP的操作界面进行截图得到待识别图像;然后利用本申请实施例提供的图像中的对象识别方法识别出待识别图像中的文字、图形、图片等操作按钮或链接;其次,在待识别图像中确定识别出的文字、图像、图片等操作按钮或操作链接的位置;最后对识别出的这些文字、图像、图片等操作按钮或操作链接进行自动操作,以实现该APP中的相应功能按钮或链接工作是否正常的自动化测试。
在一个例子中,步骤101中的预处理包括待识别图像的二值化处理,以得到待识别图像的二值化图像。图像的二值化处理,一般是指将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出黑和白两种视觉效果。且在一种具体实现方式中,对待识别图像进行二值化处理可以包括:先将待识别图像转换成灰度图,然后将该灰度图中灰度值大于预设阈值的像素点的灰度值设置为灰度极大值(例如,255),将该灰度图中灰度值小于预设阈值的像素点的灰度值设置为灰度极小值(例如,0),从而得到包括两种灰度值(灰度极大值和灰度极小值)的像素点的二值图像。其中,预设阈值可以是固定阈值,也可以是自适应阈值。
在另一个例子中,为了使得得到的二值图像中的目标对象更易于识别,上述步骤101中的对待识别图像进行预处理还可以包括:基于预设方式对所述待识别图像进行处理。其中,预设方式可以包括但不限于下列方式中的一种或多种:灰度处理、降噪处理、归一化处理、对模糊区域进行清晰化处理,以及去除待识别图像中的不重要或不感兴趣的信息,等等。对于灰度处理、降噪处理和归一化处理可以采用现有的方式实现;对模糊区域进行清晰化处理,例如可以通过增大该区域的对比度使该区域中显示的对象更清晰;去除待识别图像中不重要或不感兴趣的信息的方式既可以由人工完成,也可以通过图像中的对象识别软件自动完成。
步骤102、将所述二值图像切割成多个子区域,并从所述多个子区域中选出第一子区域,所述第一子区域为包含有预设像素点的子区域。
其中,预设像素点为前景像素点,或者,预设像素点为背景像素点。由于二值图像中一般仅包含黑白两种类型的像素点,因此当这两种类型像素点中的一种为前景像素点时,另一种即为背景像素点。更为具体的,在待识别图像的二值图像中,当需要识别的目标对象由前景像素点表示时,上述预设像素点为前景像素点,当需要识别的目标对象由背景像素点表示时,上述预设像素点为背景像素点。例如,在图2A所示的二值图像中,需要识别的目标对象是“应用”这两个文字,且这两个文字是用黑色的前景像素点表示的,因此,对于图2A来说,预设像素点为前景像素点。
在一个例子中,步骤102具体可以包括:将待识别图像的二值图像切割成大小相同或不同的多个子区域,然后分别判断这多个子区域中的每一子区域中是否包含预设像素点,并将包含预设像素点的子区域确定为第一子区域。具体来说,当需要识别的目标对象由前景像素点表示时,则预设像素点为前景像素点,在此基础上,通过步骤102可以将待识别图像的二值图像中不包含前景像素点只包含背景像素点的子区域过滤,筛选出包含前景像素点的多个第一子区域。
在另一个例子中,步骤102具体可以包括:使用预设大小的矩形框遍历所述二值图像,按所述矩形框的移动轨迹,将所述二值图像切割成大小等于或小于所述矩形框的多个子区域;将所述多个子区域中包含所述预设像素点的子区域,确定为所述第一子区域。
例如,假设待识别图像的二值图像为图2A所示的图像,在图2A中,用一个小的矩形框代表一个像素点,用白色像素点表示背景像素点,用黑色像素点表示前景像素点,且预设像素点为前景像素点,用X表示二值图像的宽度,用Y表示二值图像的高度。则可以将二值图像左上角的顶点作为起始点,利用N个像素点×N个像素点大小的矩形框21(在图2A所示的例子中N=3),横向或纵向扫描遍历图2A所示的二值图像,且矩形框21每移动一次,将矩形框21覆盖的区域确定为切割出的一个子区域,直到遍历完宽度为X长度Y的二值图像中的所有像素点,就可以将图2A所示的二值图像切割成大小等于或小于矩形框21的多个子区域。然后,将这多个子区域中包含预设像素点的子区域确定为第一子区域,也即将多个子区域中包含表示“应用”这两个字的黑色像素点的多个子区域确定为多个第一子区域。
应理解,对待识别图像的二值图像进行切割得到多个第一子区域的方式,可以不限于上述两个例子中所列举的方式。
步骤103、基于不同所述第一子区域在所述二值图像中的距离,对所述第一子区域进行合并,得到至少一个第二子区域。
可选地,在第一个例子中,步骤103可以包括:将在所述二值图像中的距离小于或等于第一预设距离的不同第一子区域进行合并,得到至少一个第二子区域。也即,将所述二值图像中相互邻近的多个第一子区域进行一次合并,得到至少一个第二子区域。
在本申请实施例中,两个子区域之间的距离,可以是这两个子区域的中心点之间的距离,也可以是这两个子区域的边界之间的最小距离,等等。且距离的大小可以用常规的距离单位来衡量,或者还可以用像素点的个数来衡量。
可选地,在第二个例子中,步骤103可以包括:将所述第一子区域作为初始元素保存至第一集合;对所述第一集合循环执行多次指定步骤后,将第一集合中存储的子区域确定为所述第二子区域。也即对前一次合并后得到的子区域,再进行合并,这样经过多次合并后,得到大小不等的多个第二子区域。
如图3所示,上述指定步骤可以包括如下子步骤:
子步骤301、将所述第一集合中,在所述二值图像中的距离小于预设距离的不同子区域进行合并,得到合并后的多个候选子区域。
子步骤302、将所述第一集合中已被合并的所述第一子区域删除,并将所述多个候选子区域添加至所述第一集合中,作为新的第一集合。
子步骤303、对所述预设距离进行更新,所述预设距离与执行所述指定步骤的次数正相关。
例如,假设第i次执行指定步骤时所述预设距离等于di,则di-1<di<di+1,其中,i的取值为小于等于N的正整数,N为循环执行指定步骤的总次数。
也即在第二个例子中,对第i-1次合并后得到的子区域,在第i次再次进行合并,这样经过N次合并后,可以得到由第i-1次合并得到的多个子区域以及第i次合并得到的多个子区域组成的大小不等的多个第二子区域。这样合并的意义在于,后续识别时,对第i-1次合并得到的子区域,可以识别出小范围内连贯的目标对象,例如图6中用较小的方框标识出的“今日更新”、“软件”、“分类”、“排行”、“日必下”这五个目标对象;对第i-1次合并得到的子区域在第i次再进行合并,可以识别出较大范围内的连贯的目标对象,例如图6中较大的方框标识出的将“今日更新、软件、分类、排行、日必下”这五个词包含在内的一个大的目标对象。
需要说明的是,在对子区域进行合并时,仍然按照该子区域在二值图像中的位置连通合并,也即在将两个子区域合并得到的第二子区域中,这两个子区域之间的位置关系,与这两个子区域在二值图像中的位置关系保持一致。例如,对图2A中所示的第一子区域22和第一子区域23合并后,得到的第二子区域24如图2B所示。不难看出,第一子区域22和第一子区域23在图2B所示的第二子区域24中的位置关系,与第一子区域22和第一子区域23在图2A所示的二值图像中的位置关系一致。
步骤104、识别所述第二子区域中的目标对象。
如前文所述,目标对象可以是文字、图片和图形等。
在一个例子中,如果所述目标对象包括文字,则所述识别所述第二子区域中的目标对象,包括:采用光学字符识别(Optical Character Recognition,OCR)识别所述第二子区域中的文字。
本申请实施提供的图像中的对象识别方法,由于是先通过图像切割,从待识别图像中选出包含预设像素点的多个第一子区域,并对这多个第一子区域进行合并得到至少一个第二子区域,然后从相对简单的这第二子区域中识别目标对象,而不是直接从复杂的待识别图像中识别目标对象,因此,可以改善背景相对复杂、文字不连贯等图像中的对象识别效果。
可选地,在另一实施例中,如图4所示,在上述步骤104之后,本申请实施例提供的图像中的对象识别方法,还可以包括如下步骤:
步骤105、在所述待识别图像中,标识出识别出的所述目标对象。
假如待识别图像如图5所示,则可以在利用上述步骤101至步骤104识别出其中的文字、图片和图形之后,进一步地如图6所示,在该待识别图像中标识出识别出的文字、图片和图形。
具体的,在图6中通过方框将识别出的文字、图片和图形框出来。
图5和图6所示的待识别图像实际上是某一APP操作界面的截图,不难理解,如前文所示,在实际应用中,当待识别图像为APP操作界面的截图时,可以借助本申请实施例提供的图像中的对象识别方法对APP的操作界面进行自动化测试,例如,获得APP操作界面的截图后,借助本申请实施例提供的图像中的对象识别方法,识别并标识出该截图中的文字、图形、图片等操作按钮或链接,然后,对识别出的这些文字、图像、图片等操作按钮或操作链接进行自动操作,以实现该APP中的相应功能按钮或链接工作是否正常的自动化测试,给APP的自动化测试提供了很大的便利,可以节约APP自动化测试的时间。
继续参考图4可知,在另一个实施例中,在上述步骤105的基础上,本申请实施例提供的图像中的对象识别方法,还可以包括:
步骤106、判断标识出的所述目标对象是否符合预设条件;如果符合,则结束本流程;否则,执行步骤107。
例如,判断标识出的目标对象中是否包含预设对象,该预设对象例如可以是一串指定的文字、一幅指定的图片或一个指定的图像,如果没有包含则认为不符合预设条件。
步骤107、调整对所述待识别图像进行预处理的参数,并重新执行上述步骤101,以对待识别图像重新进行识别。
在步骤107中,被调整的预处理的参数可以根据实际进行的预处理进行确定。例如,由于图5中所示的“游戏”这个文字选项不够清晰,使得识别出的目标对象中不包括“游戏”这一文字选项,则需要调整对待识别图像进行清晰化预处理时的设置的对比度阈值,等等。
可以理解,在对待识别图像进行预处理的参数进行调整后,可以在二值图像中更加清晰的显示预设对象,进而可以使得后续步骤能够识别出预设对象,以满足实际识别要求。
以上对本申请实施例提供的图像中的对象识别方法进行了说明,下面结合附图对相应于上述图像中的对象识别方法的图像中的对象识别装置进行介绍。
如图7所示,本申请实施例提供的图像中的对象识别装置700,可以包括:预处理模块701、切割模块702、合并模块703和识别模块704。
预处理模块701,用于对待识别图像进行预处理,获得所述待识别图像的二值图像。
待识别图像可以是需要识别其中的目标对象的任何图像。例如,待识别图像可以是对纸质的文档进行扫描得到的图像。再如,待识别图像可以是应用程序(Application,APP)的操作界面的截图。其中,目标对象,可以包括出现在待识别图像中的文字、图片、图形等等。
需要说明的是,当待识别图像是APP操作界面的截图时,本申请实施例提供的图像中的对象识别装置700可以应用于APP的自动化测试当中,具体的应用过程大致为:首先对APP的操作界面进行截图得到待识别图像;然后利用本申请实施例提供的图像中的对象识别装置700识别出待识别图像中的文字、图形、图片等操作按钮或链接;其次,在待识别图像中确定识别出的文字、图像、图片等操作按钮或操作链接的位置;最后对识别出的这些文字、图像、图片等操作按钮或操作链接进行自动操作,以实现该APP中的相应功能按钮或链接工作是否正常的自动化测试。
在一个例子中,预处理模块701可用于:对待识别图像进行二值化处理,以得到待识别图像的二值化图像。
在另一个例子中,为了使得得到的二值图像中的目标对象更易于识别,预处理模块701还可用于:基于预设方式对所述待识别图像进行处理。其中,预设方式可以包括但不限于下列方式中的一种或多种:灰度处理、降噪处理、归一化处理、对模糊区域进行清晰化处理,以及去除待识别图像中的不重要或不感兴趣的信息,等等。
切割模块702,用于将所述二值图像切割成多个子区域,并从所述多个子区域中选出第一子区域,所述第一子区域为包含有预设像素点的子区域。
其中,预设像素点为前景像素点,或者,预设像素点为背景像素点。
在一个例子中,切割模块702可用于:将待识别图像的二值图像切割成大小相同或不同的多个子区域,然后分别判断这多个子区域中的每一子区域中是否包含预设像素点,并将包含预设像素点的子区域确定为第一子区域。
在另一个例子中,切割模块702可用于:使用预设大小的矩形框遍历所述二值图像,按所述矩形框的移动轨迹,将所述二值图像切割成大小等于或小于所述矩形框的多个子区域;将所述多个子区域中包含所述预设像素点的子区域,确定为所述第一子区域。
应理解,切割模块702对待识别图像的二值图像进行切割得到多个第一子区域的方式,可以不限于上述两个例子中所列举的方式。
合并模块703,用于基于不同所述第一子区域在所述二值图像中的距离,对所述第一子区域进行合并得到至少一个第二子区域。
可选地,在第一个例子中,合并模块703可用于:将在所述二值图像中的距离小于或等于第一预设距离的不同第一子区域进行合并,得到至少一个第二子区域。也即,将所述二值图像中相互邻近的多个第一子区域进行一次合并,得到至少一个第二子区域。
可选地,在第二个例子中,合并模块703可用于:将所述第一子区域作为初始元素保存至第一集合;对所述第一集合循环执行多次指定步骤后,将第一集合中存储的子区域确定为所述第二子区域。也即对前一次合并后得到的子区域,再进行合并,这样经过多次合并后,得到大小不等的多个第二子区域。
如图8所示,上述指定模块可以包括如下子模块:合并子模块801、第一更新子模块802和第二更新子模块803。
合并子模块801,用于将所述第一集合中,在所述二值图像中的距离小于预设距离的不同子区域进行合并,得到合并后的多个候选子区域。
第一更新子模块802,用于将所述第一集合中已被合并的所述第一子区域删除,并将所述多个候选子区域添加至所述第一集合中,作为新的第一集合。
第二更新子模块803,用于对所述预设距离进行更新,所述预设距离与执行所述指定步骤的次数正相关。
例如,假设第i次执行指定步骤时所述预设距离等于di,则di-1<di<di+1,其中,i的取值为小于等于N的正整数,N为循环执行指定步骤的总次数。
也即在第二个例子中,也即对第i-1次合并后得到的子区域,在第i次再次进行合并,这样经过N次合并后,可以得到大小不等的多个第二子区域。
需要说明的是,合并模块703在对子区域进行合并时,仍然按照该子区域在二值图像中的位置连通合并,也即在将两个子区域合并得到的第二子区域中,这两个子区域之间的位置关系,与这两个子区域在二值图像中的位置关系保持一致。
识别模块704,用于识别所述第二子区域中的目标对象。
如前文所述,目标对象可以是文字、图片和图形等。
在一个例子中,如果所述目标对象包括文字,则识别模块704可用于:采OCR识别所述第二子区域中的文字。
本申请实施提供的图像中的对象识别装置700,由于是先通过图像切割,从待识别图像中选出包含预设像素点的多个第一子区域,并对这多个第一子区域进行合并得到至少一个第二子区域,然后从相对简单的这至少一个第二子区域中识别目标对象,而不是直接从复杂的待识别图像中识别目标对象,因此,可以改善背景相对复杂、文字不连贯等图像中的对象识别效果。
可选地,在另一实施例中,如图9所示,本申请实施例提供的图像中的对象识别装置700,还可以包括:标识模块705。
标识模块705,用于在所述待识别图像中,标识出识别出的所述目标对象。
可以理解,标识出识别出的目标对象后,可以方便后续的操作。例如,当待识别图像为APP操作界面的截图时,借助本申请实施例提供的图像中的对象识别装置700,识别并标识出该截图中的文字、图形、图片等操作按钮或链接后,可以对识别出的这些文字、图像、图片等操作按钮或操作链接进行自动操作,进而可以实现该APP中的相应功能按钮或链接工作是否正常的自动化测试,给APP的自动化测试提供了很大的便利,可以节约APP自动化测试的时间。
可选地,在另一实施例中,如图9所示,本申请实施例提供的图像中的对象识别装置700,还可以包括:判断模块706和调整模块707。
判断模块706,用于判断标识出的所述目标对象是否符合预设条件;如果否则触发下述调整模块707。
例如,判断标识出的目标对象中是否包含预设对象,该预设对象例如可以是一串指定的文字、一幅指定的图片或一个指定的图像,如果没有包含则认为不符合预设条件。
调整模块707,用于调整对所述待识别图像进行预处理的参数,并重新触发所述预处理模块701。
在调整模块707中,被调整的预处理的参数可以根据实际进行的预处理进行确定。例如,由于图5中所示的“游戏”这个文字选项不够清晰,使得识别出的目标对象中不包括“游戏”这一文字选项,则需要调整对待识别图像进行清晰化预处理时的设置的对比度阈值,等等。
可以理解,在对待识别图像进行预处理的参数进行调整后,可以在二值图像中更加清晰的显示预设对象,进而可以使得后续步骤能够识别出预设对象,以满足实际识别要求。
需要说明的是,由于装置实施例执行的内容与方法实施例类似,因此,本文对装置实施例部分描述的较为简略,相关之处请参见方法实施例部分。
图10示出了是本申请实施例提供的一种电子设备的结构示意图。请参考图10,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成图像中的对象识别装置。处理器,执行存储器所存放的程序,并具体用于执行本申请实施例提供的图像中的对象识别方法。
上述如本申请图10所示实施例揭示的图像中的对象识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图10所示实施例中图像中的对象识别装置执行的方法,并具体用于执行本申请实施例提供的图像中的对象识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,本申请中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种图像中的对象识别方法,其特征在于,所述方法包括:
对待识别图像进行预处理,获得所述待识别图像的二值图像;
将所述二值图像切割成多个子区域,并从所述多个子区域中选出第一子区域,所述第一子区域为包含有预设像素点的子区域;
基于不同所述第一子区域在所述二值图像中的距离,对所述第一子区域进行合并,得到至少一个第二子区域;
识别所述第二子区域中的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述将所述二值图像切割成多个子区域,并从所述多个子区域中选出第一子区域,包括:
使用预设大小的矩形框遍历所述二值图像,按所述矩形框的移动轨迹,将所述二值图像切割成大小等于或小于所述矩形框的多个子区域;
将所述多个子区域中包含所述预设像素点的子区域,确定为所述第一子区域。
3.根据权利要求1所述的方法,其特征在于,所述预设像素点为前景像素点或背景像素点。
4.根据权利要求1所述的方法,其特征在于,所述基于不同所述第一子区域之间在所述二值图像中的距离,对所述第一子区域进行合并,得到至少一个第二子区域,包括:
将所述第一子区域作为初始元素保存至第一集合;
对所述第一集合循环执行多次指定步骤后,将第一集合中存储的子区域确定为所述第二子区域;
其中,所述指定步骤包括:
将所述第一集合中,在所述二值图像中的距离小于预设距离的不同子区域进行合并,得到合并后的多个候选子区域;
将所述第一集合中已被合并的所述第一子区域删除,并将所述多个候选子区域添加至所述第一集合中,作为新的第一集合;以及
对所述预设距离进行更新,所述预设距离与执行所述指定步骤的次数正相关。
5.根据权利要求1所述的方法,其特征在于,所述对待识别图像进行预处理,包括:基于预设方式对所述待识别图像进行处理;
其中,所述预设方式包括下列方式中的一种或多种:灰度处理、降噪处理和归一化处理。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
在所述待识别图像中,标识出识别出的所述目标对象。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在标识出的所述目标对象不符合预设条件的情况下,调整对所述待识别图像进行预处理的参数,并重新执行所述对待识别图像进行预处理,获得所述待识别图像的二值图像的步骤。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述目标对象包括以下至少一项:文字、图形、图片。
9.根据权利要求8所述的方法,其特征在于,所述目标对象包括文字,其中,所述识别所述第二子区域中的目标对象,包括:
采用光学字符识别OCR识别所述第二子区域中的文字。
10.一种图像中的对象识别装置,其特征在于,所述装置包括:
预处理模块,用于对待识别图像进行预处理,获得所述待识别图像的二值图像;
切割模块,用于将所述二值图像切割成多个子区域,并从所述多个子区域中选出第一子区域,所述第一子区域为包含有预设像素点的子区域;
合并模块,用于基于不同所述第一子区域在所述二值图像中的距离,对所述第一子区域进行合并得到至少一个第二子区域;
识别模块,用于识别所述第二子区域中的目标对象。
CN201810929671.4A 2018-08-15 2018-08-15 一种图像中的对象识别方法及装置 Pending CN109117845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810929671.4A CN109117845A (zh) 2018-08-15 2018-08-15 一种图像中的对象识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810929671.4A CN109117845A (zh) 2018-08-15 2018-08-15 一种图像中的对象识别方法及装置

Publications (1)

Publication Number Publication Date
CN109117845A true CN109117845A (zh) 2019-01-01

Family

ID=64852272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810929671.4A Pending CN109117845A (zh) 2018-08-15 2018-08-15 一种图像中的对象识别方法及装置

Country Status (1)

Country Link
CN (1) CN109117845A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858542A (zh) * 2019-01-25 2019-06-07 广州云测信息技术有限公司 一种字符识别方法和装置
CN110009712A (zh) * 2019-03-01 2019-07-12 华为技术有限公司 一种图文排版方法及其相关装置
CN111353503A (zh) * 2020-02-28 2020-06-30 北京字节跳动网络技术有限公司 一种用户界面图像中功能区域的识别方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010103849A1 (ja) * 2009-03-13 2010-09-16 日本電気株式会社 画像識別子抽出装置
CN102782703A (zh) * 2010-03-11 2012-11-14 微软公司 经历光学字符识别的图像的页面布局确定
CN104182927A (zh) * 2014-09-12 2014-12-03 北京国双科技有限公司 图片水印添加方法及装置
CN104361312A (zh) * 2014-10-16 2015-02-18 北京捷通华声语音技术有限公司 一种对图像进行字符识别的方法和装置
CN104463097A (zh) * 2014-10-31 2015-03-25 武汉工程大学 基于局部自适应阈值分割算法的高压线图像检测方法
CN104636717A (zh) * 2014-12-24 2015-05-20 四川超凡知识产权服务股份有限公司 图表识别的方法及装置
WO2017088001A1 (de) * 2015-11-25 2017-06-01 Zkw Group Gmbh Kraftfahrzeugscheinwerfer mit einer intelligenten autobahn-lichthupe
CN107330465A (zh) * 2017-06-30 2017-11-07 清华大学深圳研究生院 一种图像目标识别方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010103849A1 (ja) * 2009-03-13 2010-09-16 日本電気株式会社 画像識別子抽出装置
CN102782703A (zh) * 2010-03-11 2012-11-14 微软公司 经历光学字符识别的图像的页面布局确定
CN104182927A (zh) * 2014-09-12 2014-12-03 北京国双科技有限公司 图片水印添加方法及装置
CN104361312A (zh) * 2014-10-16 2015-02-18 北京捷通华声语音技术有限公司 一种对图像进行字符识别的方法和装置
CN104463097A (zh) * 2014-10-31 2015-03-25 武汉工程大学 基于局部自适应阈值分割算法的高压线图像检测方法
CN104636717A (zh) * 2014-12-24 2015-05-20 四川超凡知识产权服务股份有限公司 图表识别的方法及装置
WO2017088001A1 (de) * 2015-11-25 2017-06-01 Zkw Group Gmbh Kraftfahrzeugscheinwerfer mit einer intelligenten autobahn-lichthupe
CN107330465A (zh) * 2017-06-30 2017-11-07 清华大学深圳研究生院 一种图像目标识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘晓沐等: "《遥感图像目标识别的并行处理方法》", 《计算机应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858542A (zh) * 2019-01-25 2019-06-07 广州云测信息技术有限公司 一种字符识别方法和装置
CN110009712A (zh) * 2019-03-01 2019-07-12 华为技术有限公司 一种图文排版方法及其相关装置
CN110009712B (zh) * 2019-03-01 2021-05-04 华为技术有限公司 一种图文排版方法及其相关装置
US11790584B2 (en) 2019-03-01 2023-10-17 Huawei Technologies Co., Ltd. Image and text typesetting method and related apparatus thereof
CN111353503A (zh) * 2020-02-28 2020-06-30 北京字节跳动网络技术有限公司 一种用户界面图像中功能区域的识别方法及装置
CN111353503B (zh) * 2020-02-28 2023-08-11 北京字节跳动网络技术有限公司 一种用户界面图像中功能区域的识别方法及装置

Similar Documents

Publication Publication Date Title
CN108171104B (zh) 一种文字检测方法及装置
Farahmand et al. Document image noises and removal methods
US20190080457A1 (en) Electronic device and method for automatic human segmentation in image
WO2017148377A1 (zh) 行驶证有效期自动提取方法、设备、***及存储介质
CN107368827B (zh) 字符识别方法及装置、用户设备、服务器
Agrawal et al. Clutter noise removal in binary document images
JP2007183742A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
CN109117845A (zh) 一种图像中的对象识别方法及装置
CN111274957A (zh) 网页页面验证码识别方法、装置、终端和计算机存储介质
CN111630522A (zh) 记入区域提取装置和记入区域提取程序
JP4159720B2 (ja) 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体
CN111291797A (zh) 一种防伪识别方法、装置及电子设备
CN112926471A (zh) 业务单据影像内容识别方法及装置
CN112101386A (zh) 文本检测方法、装置、计算机设备和存储介质
CN111460355A (zh) 一种页面解析方法和装置
CN110991520A (zh) 一种生成训练样本的方法以及装置
CN114255223A (zh) 基于深度学习的双阶段卫浴陶瓷表面缺陷检测方法和设备
CN113191358A (zh) 金属零件表面文本检测方法和***
CN113592720B (zh) 图像的缩放处理方法、装置、设备、存储介质
RU2608239C1 (ru) Способ и система определения пригодности изображения документа для оптического распознавания символов и других операций по обработке изображений
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN114627484A (zh) 一种复杂多场景文档分割方法、***、装置及介质
CN112990172A (zh) 一种文本识别方法、字符识别方法及装置
Ganchimeg History document image background noise and removal methods
CN110533020B (zh) 一种文字信息的识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190101

RJ01 Rejection of invention patent application after publication